Genoma:
• la información genética común a todas las células del organismo.
Transcriptoma:
• la parte del genoma que se expresa en una célula en una etapa específica de su desarrollo.
Proteoma:
• las proteínas que interactuan para dar a la célula su carácter individual.
Metaboloma:
• los metabolitos reflejan cambios en los niveles de informacion previos.
La genómica se ha desarrollado como consecuencia
de los avances en Biología Molecular e Informática.
La introducción y popularización de las tecnologías de
alta procesividad ha cambiado drásticamente la
manera en que se abordan los problemas biológicos y
se prueban las hipótesis.
El objetivo de la genómica funcional es generar un catálogo de todos
los genes y de su función.
Para comprender el comportamiento de los sistemas biológicos y de
los algoritmos genéticos que permiten el funcionamiento celular y el
desarrollo de los organismos.
La genómica funcional engloba el estudio del:
Transcriptoma: conjunto completo de transcriptos.
Proteoma: conjunto de proteínas codificadas por un genoma.
Interactoma: interacción de estos productos.
Planteamiento clásico:
Dirigido por una hipótesis.
Limitado el número de genes
estudiados.
GENÓMICA FUNCIONAL Y POSTGENÓMICA
Planteamiento genómico y
postgenómicos:
No siempre hay hipótesis de partida.
Información sobre miles de genes.
Tecnología Sanger: Virus, bacterias
2002: secuenciación completa de muchas bacterias fitopatógenas
2006: emergencia de NGS (454 Roche, ILLUMINA, SOLiD)
2009: 12 hongos fitopatógenos secuenciados
2016: 8590 bacterias, 5500 virus, 844 hongos….
(http://cpgr.plantbiology.msu.edu/)
El objetivo es identificar el complemento de todos los transcriptos
de una muestra biológica y estimar su abundancia en determinadas
condiciones fisiológicas y/o de desarrollo.
La transcriptómica permite asimismo identificar estructura
funcional de genes (sitio de inicio y fin de transcripción, sitios de
splicing, etc).
Antes del 2000: northern
blot RT-PCR
Colecciones de ADNc
diferencial
Display diferencial
2000 -2010: avances
tecnológicos Biol. Mol.
Genómica y boinformática
Expressed Sequence
Tags (ESTs).
Serial analysis
gene expression
(SAGE).
Suppression substractive hybridization
(SSH)
Microarreglode ADN
2010- :
NGS – Bioinformática
RNAseq
Generación de colecciones de ESTs
• La complejidad de los genomas eucariotas
hace aconsejable no abordar inicialmente
el estudio del genoma completo.
• Es preferible estudiar aquellos genes que
se están expresando en un momento
determinado de la vida del organismo.
Genoteca de ADNc:
colección de Fragmentos de DNA clonados
que representan el conjunto de genes que
se están expresando en un órgano o tejido
determinado, o bajo una situación
particular o momento de desarrollo.
Las genotecas de ADNc se secuencian de
forma masiva para generar miles de
secuencias parciales o ESTs de 200-500 bp.
Las diferencias en la expresión de genes pueden ser
identificadas considerando el número de veces en que
aparece representado un EST particular.
• Los ESTs por su propia naturaleza, son incompletas y,
hasta cierto punto, imprecisas.
• Los ESTs también suelen ser suficientes para la
identificación de los genes mediante comparación con
las bases de datos.
Transcriptómica y descubrimiento de genes
Caracterización de splicing alternativo
Identificación de sitios de poliadenilación
Estimación del numero de genes de una especie
Estudios de expresión génica
Identificación y desarrollo de marcadores funcionales (EST –SSR), SNPs
Mapeo físico, identificación de Sequence Tag Sites (STS)
Clasificación funcional de ESTs aislados a partir de la
clonoteca diferencial de flor en estadio R1
Clasificación funcional de ESTs aislados a partir de la
clonoteca diferencial de flor en estadio R4
Identificación de genes candidatos
Fernandez et al. 2003. BMC Genomics. Sep
30;4(1):40.
ESTs RELACIONADOS CON ESTRÉS
BIÓTICO Y ABIÓTICO
(919 secuencias editadas y anotadas)
Identificación de genes candidatos mediante
construcción de colecciones de ADNc
substractivas Construcción de colecciones de ADNc
substractivas a partir de flores de la línea MR
2 DPI
Control de
inoculación
(Mock)
4 DPI
Suspensión de
ascosporas
− − − −
Mock (NI)
D2I-NI D2NI- I D4I- NI D4NI- I
Inoculado (I)
Colección D4I-NI
Secuencias únicas: 446 No descriptas para girasol: 71
Identificación de genes candidatos mediante
construcción de colecciones de ADNc
substractivas 4 DPI
− Con al menos un término GO: 375
Colección D4NI-I
Secuencias únicas: 295 No descriptas para girasol: 42
Identificación de genes candidatos mediante
construcción de colecciones de ADNc
substractivas 4 DPI
− Con al menos un término GO: 253
Los microarreglos de ADN surgen de la
necesidad de analizar la cantidad de
información procedente de los grandes
proyectos de secuenciación de genomas.
El análisis de microarreglos de ADN
permite estudiar simultáneamente la
expresión de miles de genes y analizar
su expresión bajo distintas condiciones
experimentales
Permiten elaborar mapas finos de
transcripción y proporcionan información
indirecta de los niveles de proteínas.
0
1000
2000
3000
4000
5000
6000
Nro. publicaciones Pubmed
El objetivo de los experimentos de microarreglos
de ADN es comparar la expresión de múltiples
genes (transcripción) en distintas condiciones:
• Momentos distintos del tiempo
• Tejidos distintos
• Tejidos sanos o enfermos
Se basan en tecnologías conocidas como la
hibridación y la fluorescencia.
Microarreglos de ADNc
Microarreglos de ologonucleótidos
• Affymetrix
• Agilent
• NimbleGen
• ABI
• Illumina
Cada sonda del microarreglo está diseñada
para unirse a un gen de forma específica.
• Diseño de sondas específicas.
• Especificidad de secuencia.
• Tms homogéneas.
• Sin estructuras secundarias.
• Cada sonda está dispuesta de forma
ordenada sobre el microarreglo
Primer microarreglo de ADNc
Las muestras preparadas del RNA se
lavan sobre el array por un periodo de 14 a
16 horas. El número de moléculas
implicado en el proceso es enorme. Hay
millones de copias de cada probe de DNA
(ATCATG) en cada cuadrado del chip, y
miles de millones de moléculas de RNA de
cada gen que se expresa en la muestra.
Una parte de las moléculas de RNA
encontrarán su complemento. Si la
secuencia de bases del RNA encaja
en la del probe de DNA, habrá un
alineamiento perfecto y la muestra
se pegará al probe.
Diseño y síntesis del chip de girasol
Diseño de la micromatriz comprende un total de 42.386
sondas, derivadas de un indice de genes local (SUR)
incluyendo ademas con 1.417 controles de Agilent y 74
controles de hibridación.
Diseño 4 x 44 K
TECNOLOGÍA AGILENT
15 mil a 1 millon de sondas de 60 bases.
Anotación funcional (BLASTX, Blast2go)
133,682 EST Genbank (versión May 2009) Helianthus annuus L.
VecScreen (http://www.ncbi.nlm.nih.gov/VecScreen/UniVec.html)
Trimseq EMBOSS (http://emboss.sourceforge.net/)
28,089 singletons y 12,924 contigs = 41,013 unigenes (ensamblador CAP3)
MICROARREGLO (Agilent 44Kx4) 42,386 sondas
10x74 controles específicos 1,417 controles Agilent
Fernandez et al 2012
Sunflower unigene collection and
expression chip design
SUR v.1.0
Sunflower Microarray Database
Búsqueda de los puntos (spots)
Segmentación
Cuantificación
Calidad de la medida
Agilent
- Estadística Descriptiva. - Comparación de medias. - Diseño de Experimentos (ANOVA). -Correcciones para comparaciones múltiples. - Descomposición en valores singulares : Componentes principales, correspondencias. - Métodos de clasificación: Análisis Discriminante y variantes. - ANALISIS DE AGRUPAMIENTO. - ANALISIS DE AGRUPAMIENTO DE INDIVIDUOS Y GENES SIMULTANEAMENTE.
Mol Biotechnol (2012) 50:87–97
MICROARREGLOS
Ventajas:
• tecnología madura, con años de análisis y validaciones
• Procesamiento y comparación simultánea de muchas
muestras en paralelo
• Han sido extensamente estudiados en interacciones H-P
Desventajas:
• Limitados a identificar transcriptos de genes conocidos
• Background puede ser alto por señales inespecíficas
• Señal saturada a altos niveles de expresión génica
La evolución de la transcriptomica
1995 P. Brown, et. al. Gene expression profiling using spotted cDNA microarray: expression levels of known genes
2002 Affymetrix, whole genome expression profiling using tiling array: identifying and profiling novel genes and splicing variants
2008 many groups, mRNA-seq: direct sequencing of mRNAs using next generation sequencing techniques (NGS)
RNA-seq is still a technology
under active development
Hybridization-based
TRANSCRIPTÓMICA RNA-seq
How RNA-seq works
Wang et. al, Nat. Rev. Genetics 10, 57-63, 2009).
Next generation sequencing (NGS)
Sample preparation
Data analysis: Mapping reads Visualization (Gbrowser) De novo assembly Quantification
Purificación y Analisis del RNA
RNA Purificación: Qiagen Kit o Fenol/Cloroformo.
Analisis de calidad del RNA Quality (Agilent 2100 BioAnalyzer)
Cuantificación del
RNA (Qubit)
RIN’ = RNA integrity number: 0 (malo) to 10 (bueno)
RIN = 6.0 RIN = 10
Tipo de experimento → diferentes plataformas
Diseño del experimento: Single End (SR) vs. Paired End
(PE)
Pipeline RNAseq Teorica
Practica
FASTQ file
@SN971:3:2304:20.80:100.00#0/1
NAAATTTCACATTGCGTTGGGAACAGTTGGCCCAAACTCAGGTTGCAGTAACTGTCACAATACC
ATTCTCCATCAACTTCAAGAAATGTTCAACAAAACAC
+
@P\cceeegggggiihhiiiiiiihighiiiiiiiiiiiiiifghhhhgfghiifihihfhhiiiihiggggggeeeeeeddcdddccbcdddcccccccc
Line 1: begins with ‘@’ followed by sequence identifier
Line 2: raw sequence
Line 3: +
Line 4: base quality values for sequence in Line 2
Lane #
Tile #
INSTRUMENT NAME
X Y
ADAPTOR
INDEX
Calidad de secuencia por base
TRANSCRPTOMICA POR RNA-seq
Genoma de referencia:
• Se mapean las lecturas sobre el genoma de referencia, utilizando programas de detección de sitios de splicing.
• Se pierden sitios no canónicos comunes en plantas, hongos, oomicetes
Sin genoma de referencia
• Ensamblado “de novo”.
• Bioinformaticamente mas complejo que secuenciación Genómica “de novo” .
• Requiere normalización de colecciones ADNc antes de la secuenciación masiva
Mapeo de lecturas
Microarray y RNAseq: necesidad de validación!
Validación de genes por Northern Blot y qRT-PCR:
CH SH CR SR CT ST
Relación de intensidad normalizada
banda transcripto-específica/banda
ribosomal utilizando la concentración
de ARN ribosomal
1,00 7,82 1,00 1,56 1,00 1,99
Gel de agarosa 1,5% y
Northern Blot de los ARNs de
diferentes órganos de
plantas de girasol sometidas
a estrés por salinidad.
CH: control hoja,
SH: salinidad hoja,
CR: control raíz,
SR: salinidad raíz,
CT: control tallo,
ST: salinidad tallo
(BU671801)
-4
-2
0
2
4
6
8
10
12
T1 T2 T1 T2 T1 T2 T1 T2 T1 T2 T1 T2 T1 T2 T1 T2 T1 T2 T1 T2
Log2
tas
a d
e c
amb
io
Micromatriz
qPCR
16
3
12
82
25
35
35
10
43
83
51
24
10
81
6
11
48
9
11
81
2
37
54
0
Identificacion de factor Avr ve1 en
Verticilliun dahliae por RNA-seq
5110–5115 | PNAS | March 27, 2012 | vol. 109 | no. 13
Estrategia de secuenciación
genómica de variantes y RNA seq
por ILLUMINA para la identificación
del Factor de Avr Ve1 de Verticillium
dahliae (Ave1) que interactua con el
gen R Ve1 de tomate.
Ejemplos de Transcriptomica en el estudio de
relación H-P
≈27,6 millones de lecturas por cada
condicion biológica (12, 24 Y 48hpi)
77% lecturas mapeadas sobre el
genoma de lechuga
RNA-seq vs. microarray
• RNA-seq puede ser utilizado para caracterizar nuevos transcriptos y variantes de
splicing, así como realizar un perfil de los niveles de expresión de los transcriptos
conocidos; mientras que las técnicas basadas en hibridación se limitan a detectar
transcriptos correspondientes a las secuencias genómicas conocidas
• RNA-seq tiene mayor resolución
En principio, el RNAseq puede lograr la resolución de un solo ARNm, mientras que
en los microarray depende de la densidad de sondas.
Detección de transcriptos desconocidos con niveles de expresión muy bajos.
• RNA-seq se puede aplicar el mismo protocolo experimental para diversos fines,
mientras que los microarrays especializados necesitan ser diseñadas para cada
caso.
Detección de polimorfismos de nucleótido único (SNP array)
Mapeo de uniones exonicas (junction array)
Detección de fusiones génicas (gene fusion array)
• Tecnologías de Next-generation sequencing (NGS) están desafiando los microarrays
como la herramienta de elección para análisis genómicos.
Análisis por categorías funcionales:
FATIGO, FATISCAN, GenSet Analysis (Babelomics)
Función Molecular
Linea Girasol Resistente – Sclerotinia I vs NI
0, 2 y 4 dpi
INTERPRETACIÓN DE RESULTADOS
Mapman
BINCODE NAME IDENTIFIER DESCRIPTION TYPE
1 PS
1.1 PS.lightreaction
1.1.1 PS.lightreaction.photosystem II
1.1.1.1 PS.lightreaction.photosystem II.LHC-II HeAn_C_11607 moderately similar to ( 431) AT3G47470 | Symbols: LHCA4, CAB4 | LHCA4 (LIGHT-HARVESTING CHLOROPHYLL-PROTEIN COMPLEX I SUBUNIT A4); chlorophyll binding | chr3:17493622-17494773 REVERSEmoderately similar to ( 231) CB12_PETHY Chlorophyll a-b binding protein, chloroplast precursor (LHCI type II CAB) - Petunia hybrida (Petunia)moderately similar to ( 378) loc_os08g33820 12008.m080044 protein chlorophyll a-b binding protein 4, chloroplast precursor, putative, expressed Contig11607T
1.1.1.2 PS.lightreaction.photosystem II.PSII polypeptide subunits HeAn_C_3889 moderately similar to ( 225) AT2G39050 | Symbols: | hydroxyproline-rich glycoprotein family protein | chr2:16303427-16305336 FORWARDweakly similar to ( 153) PSBP_SOLTU Oxygen-evolving enhancer protein 2, chloroplast precursor (OEE2) (23 kDa subunit of oxygen evolving system of photosystem II) (OEC 23 kDa subunit) (23 kDa thylakoid membrane protein) - Solanum tuberosum (Potato)moderately similar to ( 229) loc_os07g48500 12007.m09063 protein stress responsive protein, putative, expressed Contig3889T
1.1.2 PS.lightreaction.photosystem I HeAn_C_677 moderately similar to ( 260) AT1G45474 | Symbols: LHCA5 | LHCA5; pigment binding | chr1:17179353-17180439 FORWARDweakly similar to ( 130) CB12_PETHY Chlorophyll a-b binding protein, chloroplast precursor (LHCI type II CAB) - Petunia hybrida (Petunia)moderately similar to ( 247) loc_os02g52650 12002.m10295 protein chlorophyll a-b binding protein 4, chloroplast precursor, putative, expressed Contig677T
1.1.2.1 PS.lightreaction.photosystem I.LHC-I HeAn_S_37979 moderately similar to ( 304) AT4G12800 | Symbols: PSAL | PSAL (photosystem I subunit L) | chr4:7521469-7522493 FORWARDmoderately similar to ( 303) PSAL_CUCSA Photosystem I reaction center subunit XI, chloroplast precursor (PSI-L) (PSI subunit V) - Cucumis sativus (Cucumber)moderately similar to ( 262) loc_os12g23200 12012.m26900 protein photosystem I reaction center subunit XI, chloroplast precursor, putative, expressed DY919999T
1.1.2.2 PS.lightreaction.photosystem I.PSI polypeptide subunits HeAn_C_3253 moderately similar to ( 229) AT2G31040 | Symbols: | ATP synthase protein I -related | chr2:13209094-13211012 REVERSEmoderately similar to ( 207) loc_os01g48300 12001.m43139 protein expressed protein Contig3253T
11 lipid metabolism
11.3 lipid metabolism.Phospholipid synthesis HeAn_S_18559 moderately similar to ( 222) AT3G18850 | Symbols: LPAT5 | LPAT5; acyltransferase | chr3:6499529-6500840 REVERSEvery weakly similar to (87.8) LPAT2_BRAOL 1-acyl-sn-glycerol-3-phosphate acyltransferase 2 (EC 2.3.1.51) (Lysophosphatidyl acyltransferase 2) - Brassica oleracea (Wild cabbage)moderately similar to ( 224) loc_os01g57360 12001.m11887 protein 1-acyl-sn-glycerol-3-phosphate acyltransferase 4, putative, expressed GE503752T
11.3.2 lipid metabolism.Phospholipid synthesis.choline kinase HeAn_S_17701 moderately similar to ( 254) AT4G09760 | Symbols: | choline kinase, putative | chr4:6148955-6151150 REVERSEmoderately similar to ( 265) loc_os05g45880 12005.m08713 protein ethanolamine kinase 1, putative, expressed GE505193T
3.1.1001 minor CHO metabolism.raffinose family raffinose minor CHO metabolism.raffinose M
13.1.7.1002 amino acid metabolism.synthesis.histidine histidine amino acid synthesis.histidine M
Análisis transcriptómico relacionado
a la senescencia foliar en girasol
Campo 10.173 7.890
Invernáculo 7.517 3.714
Estudio integrador relacionado a la senescencia foliar en girasol
Campo control: Tiempo 1 vs Tiempo 0
Mapman
Paintomics Librería KEGG
(http://www.genome.jp/kegg/)
Weighted Gene Correlation
Network Analysis (WGCNA)
Biología de Sistemas
Fenotipo
Genómica Transcriptómica Proteómica Metabolómica Fenómica
GRACIAS!!