Análisis de la incidencia del esfuerzo de alta intensidad en la generación de lncRNA. Área Inteligencia Artificial

Anàlisi de la incidència de l'esforç d'alta intensitat en la generació de

lncRNA

Ariadna Rius Soler

UOC. TFM. Curs 2013-2014

Consultor: Samir Kanaan Izquierdo

Àrea Intel·ligència Artificial

Introducció

Objectius del TFM

Planificació

Preparació

Execució

Resultats

Problemes trobats

Possibles ampliacions

Índex

La genètica és la branca de la biologia que estudia l’herència entre generacions:

Informació genètica d’un organisme: genotip.

Característiques físiques, d’aparença o personalitat: fenotips.

La informació que es transmet es troba als gens

Formats per segments d’ADN i ARN (cadenes de molècules).

Introducció

ADN:

Emmagatzema informació a llarg termini i en regula l’ús.

Conté instruccions per construir proteïnes i ARN

I pel funcionament i desenvolupament dels organismes vius i alguns virus.

ARN:

Permet a l’ADN transferir informació en la generació de proteïnes.

Regula l’expressió genètica.

Té activitat catalítica (augmenta velocitat de reacció química).

Introducció

Expressió genètica: procés en què la informació d’un gen s’utilitza en la síntesi d’una proteïna o ARN:

El nivell d’expressió és diferent per cada cèl·lula.

El seu estudi permet comparar cèl·lules (malaltes i sanes, amb condicions d’estrès, estadis, medicació, etc.).

Introducció

ARN no codificant (ncRNA):

És l’ARN que no es codifica en proteïnes.

Es pensava que no tenia cap funció però s’ha descobert la seva implicació en varis processos cel·lulars.

La majoria és desconegut o no se’n coneix la funció.

Si supera una mida determinada es considera llarg i passa a anomenar-se lncRNA:

Objecte d’estudi del present TFM.

Introducció

Estudis recents han demostrat la implicació dels lncRNA en l’envelliment i el desenvolupament de malalties.

Però la seva funció segueix essent majoritàriament desconeguda:

Els estudis fets són locals, manuals i sense grans quantitats de dades.

Aquest TFM pretén aplicar tècniques d’Intel·ligència Artificial per superar aquestes limitacions:

Aprofitant experiències i mètodes que han permès conèixer altres parts de l’ADN i ARN.

Introducció

Aplicar tècniques de Machine Learning no supervisat per: Analitzar la incidència de determinats fenotips en la generació de

proteïnes i lncRNA.

Cercar correlació entre els nivells d’expressió de proteïnes i lncRNA.

Relacionar les proteïnes correlacionades amb el pathway de la glucosa.

Usant les mesures d’un projecte real i analitzant un {mbit desconegut: La incidència de l’activitat d’alta intensitat en la generació de lncRNA i

proteïnes.

Objectius del TFM

Fases generals del TFM:

Planificació: Pla de treball temporalitzat amb taula de fites, de lliurables i diagrama de Gantt.

Preparació: Estat de l’art i elecció d’eines, dades i algoritmes a utilitzar. Familiarització amb el domini. Tractament previ de les dades.

Execució: Execució dels algoritmes amb resultats. Tancament: Anàlisi de resultats i conclusions. Preparació de la presentació.

Planificació

Eines: R, Rstudio IDE, Shiny.

BBDD: Nivells d’expressió: Projecte SUMMIT (fitxers .CEL i metadades

dels fenotips) i affyMetrix (metadades dels probesets).

lncRNA: Lncrna db, LncRNADisease database, NONCODE, LNCipedia.

Pathways: KEGGgraph.

Algoritmes: PCA, PAM, correlació de Pearson, ICA i test hipergeomètric.

Preparació

Tractament de les dades: Nivells d’expressió:

28 Fitxers .CEL amb 53.617 probesets cadascun: Importar, normalitzar i extraure els nivells d’expressió.

Metadades dels probesets d’AffyMetrix: Filtre textual per obtenir els registres corresponents a proteïnes i lncRNA.

Filtre dels nivells d’expressió deixant els de 8.656 lncRNA i 1.200 proteïnes. Obtenint dades dels 28 fitxers .CEL amb 9.856 probesets cadascun.

Metadades dels fenotips: Càrrega de la llista de fenotips per fitxer i filtres corresponents dels nivells d’expressió: Gènere (dones i homes), moment de la cursa (PRE i POST), grup d’activitat

(actiu o elit) i distància (menys de 40km, entre 40 i 60km i més de 60 km).

Preparació

Tractament de les dades:

Seqüències lncRNA: Unificar les diferents BBDD i camps (nom-seqüència en

majúscules) .

Eliminar repetits, registres sense seqüència i els corresponents a ratolins.

Pathway: Importar fitxer de definició XML i passar-lo a graf de R.

Obtenir el llistat de proteïnes del pathway usant el fitxer d’AffyMetrix i filtrant pel camp pathway.

Preparació

Agrupació:

PCA per eliminar soroll i reduir la dimensionalitat de les dades.

PAM (2 i 3 clústers) sobre scores del PCA i pels diferents fenotips.

Correlació de Pearson entre agrupaments per fenotips i barreja.

Anàlisi de diferències.

Gràfiques.

Correlació de Pearson:

Separació en proteïnes i lncRNA i càlcul de correlacions.

Selecció de correlacions majors a 0,9.

Execució

Anàlisi de Components Independents:

Filtre de proteïnes del pathway i lncRNA.

PCA per eliminar soroll i reduir la dimensionalitat.

Separació nivells d’expressió de proteïnes de lncRNA i c{lcul de correlacions.

Selecció de correlacions majors a 0,999.

Filtre de nivells d’expressió de proteïnes del pathway correlacionades.

Aplicar-los ICA per construir els metafenotips.

Test hipergeomètric i càlcul del p-value.

Execució

Anàlisi PCA:

Fenotip amb major variabilitat: distància >60km

Fenotip més homogeni: moment de la cursa PRE.

Agrupacions:

Indicis d’incidència en la generació de proteïnes i lncRNA dels fenotips:

Distància inferior a 40 km i superior a 60km.

Moment de la cursa pre i post.

Resultats

Resultats

Agrupaments per distància

Resultats

Agrupaments per moment de la cursa

Correlacions proteïnes i lncRNA:

Resultats

Correlació superior a Nombre resultats Nombre proteïnes

0,9 3.091.321 1.138

0,99 603.579 911

0,999 2.201 256

0.9995 120 66

0.9996 40 30

0.9997 17 16

0.9998 6 6

0.99988 1 1

0.99989 0 0

Anàlisi ICA:

Proteïnes del pathway correlacionades amb lncRNA:

Resultats

Correlació superior a Nombre resultats Nombre proteïnes

0,9 135.907 45

0,99 30.139 38

0,999 162 19

0.9995 23 8

0.9998 3 1

0.99988 0 0

Anàlisi ICA: Amb el test hipergeomètric no s'han trobat

diferències estadísticament significatives de la incidència de les diferents proteïnes als metafenotips construïts.

p-value>0,05:

Resultats

Resultats

Problemes trobats

Problema Solució

Domini desconegut Inclusió d’una subfase d’aprenentatge

Sense nocions de R Millora progressiva del codi

Dades del projecte SUMMIT incompletes

Ús 28 fitxers

Error paquet de R affy Ús paquet oligo

Limitacions memòria Canvi a PC 64 bits i 8GB RAM Augment límit memòria Rstudio a 11GB

Identificació pròpia dels lncRNA i proteïnes

Filtres textuals

Temps d’execució elevats i desconeguts

Optimització codi, controls per hora i elements informatius (missatges per pantalla de l’evolució)

Més mostres dels nivells d’expressió.

Més criteris d’agrupació (i combinacions).

Analitzar altres pathways.

Aplicació web en real (Shiny Server de RStudio).

Afegir funcionalitats a l’aplicació web fent-la més interactiva.

Possibles ampliacions

Gràcies

Ariadna Rius Soler

[email protected]

UOC. TFM. Curs 2013-2014

Consultor: Samir Kanaan Izquierdo

Engineering

Análisis de la incidencia del esfuerzo de alta intensidad en la generación de lncRNA. Área Inteligencia Artificial