Upload
ariadnarius
View
37
Download
3
Embed Size (px)
Citation preview
Anàlisi de la incidència de l'esforç d'alta intensitat en la generació de
lncRNA
Ariadna Rius Soler
UOC. TFM. Curs 2013-2014
Consultor: Samir Kanaan Izquierdo
Àrea Intel·ligència Artificial
Introducció
Objectius del TFM
Planificació
Preparació
Execució
Resultats
Problemes trobats
Possibles ampliacions
Índex
La genètica és la branca de la biologia que estudia l’herència entre generacions:
Informació genètica d’un organisme: genotip.
Característiques físiques, d’aparença o personalitat: fenotips.
La informació que es transmet es troba als gens
Formats per segments d’ADN i ARN (cadenes de molècules).
Introducció
ADN:
Emmagatzema informació a llarg termini i en regula l’ús.
Conté instruccions per construir proteïnes i ARN
I pel funcionament i desenvolupament dels organismes vius i alguns virus.
ARN:
Permet a l’ADN transferir informació en la generació de proteïnes.
Regula l’expressió genètica.
Té activitat catalítica (augmenta velocitat de reacció química).
Introducció
Expressió genètica: procés en què la informació d’un gen s’utilitza en la síntesi d’una proteïna o ARN:
El nivell d’expressió és diferent per cada cèl·lula.
El seu estudi permet comparar cèl·lules (malaltes i sanes, amb condicions d’estrès, estadis, medicació, etc.).
Introducció
ARN no codificant (ncRNA):
És l’ARN que no es codifica en proteïnes.
Es pensava que no tenia cap funció però s’ha descobert la seva implicació en varis processos cel·lulars.
La majoria és desconegut o no se’n coneix la funció.
Si supera una mida determinada es considera llarg i passa a anomenar-se lncRNA:
Objecte d’estudi del present TFM.
Introducció
Estudis recents han demostrat la implicació dels lncRNA en l’envelliment i el desenvolupament de malalties.
Però la seva funció segueix essent majoritàriament desconeguda:
Els estudis fets són locals, manuals i sense grans quantitats de dades.
Aquest TFM pretén aplicar tècniques d’Intel·ligència Artificial per superar aquestes limitacions:
Aprofitant experiències i mètodes que han permès conèixer altres parts de l’ADN i ARN.
Introducció
Aplicar tècniques de Machine Learning no supervisat per: Analitzar la incidència de determinats fenotips en la generació de
proteïnes i lncRNA.
Cercar correlació entre els nivells d’expressió de proteïnes i lncRNA.
Relacionar les proteïnes correlacionades amb el pathway de la glucosa.
Usant les mesures d’un projecte real i analitzant un {mbit desconegut: La incidència de l’activitat d’alta intensitat en la generació de lncRNA i
proteïnes.
Objectius del TFM
Fases generals del TFM:
Planificació: Pla de treball temporalitzat amb taula de fites, de lliurables i diagrama de Gantt.
Preparació: Estat de l’art i elecció d’eines, dades i algoritmes a utilitzar. Familiarització amb el domini. Tractament previ de les dades.
Execució: Execució dels algoritmes amb resultats. Tancament: Anàlisi de resultats i conclusions. Preparació de la presentació.
Planificació
Eines: R, Rstudio IDE, Shiny.
BBDD: Nivells d’expressió: Projecte SUMMIT (fitxers .CEL i metadades
dels fenotips) i affyMetrix (metadades dels probesets).
lncRNA: Lncrna db, LncRNADisease database, NONCODE, LNCipedia.
Pathways: KEGGgraph.
Algoritmes: PCA, PAM, correlació de Pearson, ICA i test hipergeomètric.
Preparació
Tractament de les dades: Nivells d’expressió:
28 Fitxers .CEL amb 53.617 probesets cadascun: Importar, normalitzar i extraure els nivells d’expressió.
Metadades dels probesets d’AffyMetrix: Filtre textual per obtenir els registres corresponents a proteïnes i lncRNA.
Filtre dels nivells d’expressió deixant els de 8.656 lncRNA i 1.200 proteïnes. Obtenint dades dels 28 fitxers .CEL amb 9.856 probesets cadascun.
Metadades dels fenotips: Càrrega de la llista de fenotips per fitxer i filtres corresponents dels nivells d’expressió: Gènere (dones i homes), moment de la cursa (PRE i POST), grup d’activitat
(actiu o elit) i distància (menys de 40km, entre 40 i 60km i més de 60 km).
Preparació
Tractament de les dades:
Seqüències lncRNA: Unificar les diferents BBDD i camps (nom-seqüència en
majúscules) .
Eliminar repetits, registres sense seqüència i els corresponents a ratolins.
Pathway: Importar fitxer de definició XML i passar-lo a graf de R.
Obtenir el llistat de proteïnes del pathway usant el fitxer d’AffyMetrix i filtrant pel camp pathway.
Preparació
Agrupació:
PCA per eliminar soroll i reduir la dimensionalitat de les dades.
PAM (2 i 3 clústers) sobre scores del PCA i pels diferents fenotips.
Correlació de Pearson entre agrupaments per fenotips i barreja.
Anàlisi de diferències.
Gràfiques.
Correlació de Pearson:
Separació en proteïnes i lncRNA i càlcul de correlacions.
Selecció de correlacions majors a 0,9.
Execució
Anàlisi de Components Independents:
Filtre de proteïnes del pathway i lncRNA.
PCA per eliminar soroll i reduir la dimensionalitat.
Separació nivells d’expressió de proteïnes de lncRNA i c{lcul de correlacions.
Selecció de correlacions majors a 0,999.
Filtre de nivells d’expressió de proteïnes del pathway correlacionades.
Aplicar-los ICA per construir els metafenotips.
Test hipergeomètric i càlcul del p-value.
Execució
Anàlisi PCA:
Fenotip amb major variabilitat: distància >60km
Fenotip més homogeni: moment de la cursa PRE.
Agrupacions:
Indicis d’incidència en la generació de proteïnes i lncRNA dels fenotips:
Distància inferior a 40 km i superior a 60km.
Moment de la cursa pre i post.
Resultats
Correlacions proteïnes i lncRNA:
Resultats
Correlació superior a Nombre resultats Nombre proteïnes
0,9 3.091.321 1.138
0,99 603.579 911
0,999 2.201 256
0.9995 120 66
0.9996 40 30
0.9997 17 16
0.9998 6 6
0.99988 1 1
0.99989 0 0
Anàlisi ICA:
Proteïnes del pathway correlacionades amb lncRNA:
Resultats
Correlació superior a Nombre resultats Nombre proteïnes
0,9 135.907 45
0,99 30.139 38
0,999 162 19
0.9995 23 8
0.9998 3 1
0.99988 0 0
Anàlisi ICA: Amb el test hipergeomètric no s'han trobat
diferències estadísticament significatives de la incidència de les diferents proteïnes als metafenotips construïts.
p-value>0,05:
Resultats
Problemes trobats
Problema Solució
Domini desconegut Inclusió d’una subfase d’aprenentatge
Sense nocions de R Millora progressiva del codi
Dades del projecte SUMMIT incompletes
Ús 28 fitxers
Error paquet de R affy Ús paquet oligo
Limitacions memòria Canvi a PC 64 bits i 8GB RAM Augment límit memòria Rstudio a 11GB
Identificació pròpia dels lncRNA i proteïnes
Filtres textuals
Temps d’execució elevats i desconeguts
Optimització codi, controls per hora i elements informatius (missatges per pantalla de l’evolució)
Més mostres dels nivells d’expressió.
Més criteris d’agrupació (i combinacions).
Analitzar altres pathways.
Aplicació web en real (Shiny Server de RStudio).
Afegir funcionalitats a l’aplicació web fent-la més interactiva.
Possibles ampliacions
Gràcies
Ariadna Rius Soler
UOC. TFM. Curs 2013-2014
Consultor: Samir Kanaan Izquierdo