El dogma central de la biología molecular I... · forma masiva para generar miles de secuencias...

Preview:

Citation preview

moschen.sebastian@inta.gob.ar

Genoma:

• la información genética común a todas las células del organismo.

Transcriptoma:

• la parte del genoma que se expresa en una célula en una etapa específica de su desarrollo.

Proteoma:

• las proteínas que interactuan para dar a la célula su carácter individual.

Metaboloma:

• los metabolitos reflejan cambios en los niveles de informacion previos.

La genómica se ha desarrollado como consecuencia

de los avances en Biología Molecular e Informática.

La introducción y popularización de las tecnologías de

alta procesividad ha cambiado drásticamente la

manera en que se abordan los problemas biológicos y

se prueban las hipótesis.

El objetivo de la genómica funcional es generar un catálogo de todos

los genes y de su función.

Para comprender el comportamiento de los sistemas biológicos y de

los algoritmos genéticos que permiten el funcionamiento celular y el

desarrollo de los organismos.

La genómica funcional engloba el estudio del:

Transcriptoma: conjunto completo de transcriptos.

Proteoma: conjunto de proteínas codificadas por un genoma.

Interactoma: interacción de estos productos.

Planteamiento clásico:

Dirigido por una hipótesis.

Limitado el número de genes

estudiados.

GENÓMICA FUNCIONAL Y POSTGENÓMICA

Planteamiento genómico y

postgenómicos:

No siempre hay hipótesis de partida.

Información sobre miles de genes.

Tecnología Sanger: Virus, bacterias

2002: secuenciación completa de muchas bacterias fitopatógenas

2006: emergencia de NGS (454 Roche, ILLUMINA, SOLiD)

2009: 12 hongos fitopatógenos secuenciados

2016: 8590 bacterias, 5500 virus, 844 hongos….

(http://cpgr.plantbiology.msu.edu/)

El objetivo es identificar el complemento de todos los transcriptos

de una muestra biológica y estimar su abundancia en determinadas

condiciones fisiológicas y/o de desarrollo.

La transcriptómica permite asimismo identificar estructura

funcional de genes (sitio de inicio y fin de transcripción, sitios de

splicing, etc).

Antes del 2000: northern

blot RT-PCR

Colecciones de ADNc

diferencial

Display diferencial

2000 -2010: avances

tecnológicos Biol. Mol.

Genómica y boinformática

Expressed Sequence

Tags (ESTs).

Serial analysis

gene expression

(SAGE).

Suppression substractive hybridization

(SSH)

Microarreglode ADN

2010- :

NGS – Bioinformática

RNAseq

Generación de colecciones de ESTs

• La complejidad de los genomas eucariotas

hace aconsejable no abordar inicialmente

el estudio del genoma completo.

• Es preferible estudiar aquellos genes que

se están expresando en un momento

determinado de la vida del organismo.

Genoteca de ADNc:

colección de Fragmentos de DNA clonados

que representan el conjunto de genes que

se están expresando en un órgano o tejido

determinado, o bajo una situación

particular o momento de desarrollo.

Las genotecas de ADNc se secuencian de

forma masiva para generar miles de

secuencias parciales o ESTs de 200-500 bp.

Las diferencias en la expresión de genes pueden ser

identificadas considerando el número de veces en que

aparece representado un EST particular.

• Los ESTs por su propia naturaleza, son incompletas y,

hasta cierto punto, imprecisas.

• Los ESTs también suelen ser suficientes para la

identificación de los genes mediante comparación con

las bases de datos.

Transcriptómica y descubrimiento de genes

Caracterización de splicing alternativo

Identificación de sitios de poliadenilación

Estimación del numero de genes de una especie

Estudios de expresión génica

Identificación y desarrollo de marcadores funcionales (EST –SSR), SNPs

Mapeo físico, identificación de Sequence Tag Sites (STS)

Clasificación funcional de ESTs aislados a partir de la

clonoteca diferencial de flor en estadio R1

Clasificación funcional de ESTs aislados a partir de la

clonoteca diferencial de flor en estadio R4

Identificación de genes candidatos

Fernandez et al. 2003. BMC Genomics. Sep

30;4(1):40.

ESTs RELACIONADOS CON ESTRÉS

BIÓTICO Y ABIÓTICO

(919 secuencias editadas y anotadas)

Identificación de genes candidatos mediante

construcción de colecciones de ADNc

substractivas Construcción de colecciones de ADNc

substractivas a partir de flores de la línea MR

2 DPI

Control de

inoculación

(Mock)

4 DPI

Suspensión de

ascosporas

− − − −

Mock (NI)

D2I-NI D2NI- I D4I- NI D4NI- I

Inoculado (I)

Colección D4I-NI

Secuencias únicas: 446 No descriptas para girasol: 71

Identificación de genes candidatos mediante

construcción de colecciones de ADNc

substractivas 4 DPI

− Con al menos un término GO: 375

Colección D4NI-I

Secuencias únicas: 295 No descriptas para girasol: 42

Identificación de genes candidatos mediante

construcción de colecciones de ADNc

substractivas 4 DPI

− Con al menos un término GO: 253

Los microarreglos de ADN surgen de la

necesidad de analizar la cantidad de

información procedente de los grandes

proyectos de secuenciación de genomas.

El análisis de microarreglos de ADN

permite estudiar simultáneamente la

expresión de miles de genes y analizar

su expresión bajo distintas condiciones

experimentales

Permiten elaborar mapas finos de

transcripción y proporcionan información

indirecta de los niveles de proteínas.

0

1000

2000

3000

4000

5000

6000

Nro. publicaciones Pubmed

El objetivo de los experimentos de microarreglos

de ADN es comparar la expresión de múltiples

genes (transcripción) en distintas condiciones:

• Momentos distintos del tiempo

• Tejidos distintos

• Tejidos sanos o enfermos

Se basan en tecnologías conocidas como la

hibridación y la fluorescencia.

Microarreglos de ADNc

Microarreglos de ologonucleótidos

• Affymetrix

• Agilent

• NimbleGen

• ABI

• Illumina

Cada sonda del microarreglo está diseñada

para unirse a un gen de forma específica.

• Diseño de sondas específicas.

• Especificidad de secuencia.

• Tms homogéneas.

• Sin estructuras secundarias.

• Cada sonda está dispuesta de forma

ordenada sobre el microarreglo

Primer microarreglo de ADNc

Las muestras preparadas del RNA se

lavan sobre el array por un periodo de 14 a

16 horas. El número de moléculas

implicado en el proceso es enorme. Hay

millones de copias de cada probe de DNA

(ATCATG) en cada cuadrado del chip, y

miles de millones de moléculas de RNA de

cada gen que se expresa en la muestra.

Una parte de las moléculas de RNA

encontrarán su complemento. Si la

secuencia de bases del RNA encaja

en la del probe de DNA, habrá un

alineamiento perfecto y la muestra

se pegará al probe.

Diseño y síntesis del chip de girasol

Diseño de la micromatriz comprende un total de 42.386

sondas, derivadas de un indice de genes local (SUR)

incluyendo ademas con 1.417 controles de Agilent y 74

controles de hibridación.

Diseño 4 x 44 K

TECNOLOGÍA AGILENT

15 mil a 1 millon de sondas de 60 bases.

Anotación funcional (BLASTX, Blast2go)

133,682 EST Genbank (versión May 2009) Helianthus annuus L.

VecScreen (http://www.ncbi.nlm.nih.gov/VecScreen/UniVec.html)

Trimseq EMBOSS (http://emboss.sourceforge.net/)

28,089 singletons y 12,924 contigs = 41,013 unigenes (ensamblador CAP3)

MICROARREGLO (Agilent 44Kx4) 42,386 sondas

10x74 controles específicos 1,417 controles Agilent

Fernandez et al 2012

Sunflower unigene collection and

expression chip design

SUR v.1.0

Sunflower Microarray Database

Búsqueda de los puntos (spots)

Segmentación

Cuantificación

Calidad de la medida

Agilent

- Estadística Descriptiva. - Comparación de medias. - Diseño de Experimentos (ANOVA). -Correcciones para comparaciones múltiples. - Descomposición en valores singulares : Componentes principales, correspondencias. - Métodos de clasificación: Análisis Discriminante y variantes. - ANALISIS DE AGRUPAMIENTO. - ANALISIS DE AGRUPAMIENTO DE INDIVIDUOS Y GENES SIMULTANEAMENTE.

Mol Biotechnol (2012) 50:87–97

MICROARREGLOS

Ventajas:

• tecnología madura, con años de análisis y validaciones

• Procesamiento y comparación simultánea de muchas

muestras en paralelo

• Han sido extensamente estudiados en interacciones H-P

Desventajas:

• Limitados a identificar transcriptos de genes conocidos

• Background puede ser alto por señales inespecíficas

• Señal saturada a altos niveles de expresión génica

La evolución de la transcriptomica

1995 P. Brown, et. al. Gene expression profiling using spotted cDNA microarray: expression levels of known genes

2002 Affymetrix, whole genome expression profiling using tiling array: identifying and profiling novel genes and splicing variants

2008 many groups, mRNA-seq: direct sequencing of mRNAs using next generation sequencing techniques (NGS)

RNA-seq is still a technology

under active development

Hybridization-based

TRANSCRIPTÓMICA RNA-seq

How RNA-seq works

Wang et. al, Nat. Rev. Genetics 10, 57-63, 2009).

Next generation sequencing (NGS)

Sample preparation

Data analysis: Mapping reads Visualization (Gbrowser) De novo assembly Quantification

Purificación y Analisis del RNA

RNA Purificación: Qiagen Kit o Fenol/Cloroformo.

Analisis de calidad del RNA Quality (Agilent 2100 BioAnalyzer)

Cuantificación del

RNA (Qubit)

RIN’ = RNA integrity number: 0 (malo) to 10 (bueno)

RIN = 6.0 RIN = 10

Tipo de experimento → diferentes plataformas

Diseño del experimento: Single End (SR) vs. Paired End

(PE)

Pipeline RNAseq Teorica

Practica

FASTQ file

@SN971:3:2304:20.80:100.00#0/1

NAAATTTCACATTGCGTTGGGAACAGTTGGCCCAAACTCAGGTTGCAGTAACTGTCACAATACC

ATTCTCCATCAACTTCAAGAAATGTTCAACAAAACAC

+

@P\cceeegggggiihhiiiiiiihighiiiiiiiiiiiiiifghhhhgfghiifihihfhhiiiihiggggggeeeeeeddcdddccbcdddcccccccc

Line 1: begins with ‘@’ followed by sequence identifier

Line 2: raw sequence

Line 3: +

Line 4: base quality values for sequence in Line 2

Lane #

Tile #

INSTRUMENT NAME

X Y

ADAPTOR

INDEX

Calidad de secuencia por base

TRANSCRPTOMICA POR RNA-seq

Genoma de referencia:

• Se mapean las lecturas sobre el genoma de referencia, utilizando programas de detección de sitios de splicing.

• Se pierden sitios no canónicos comunes en plantas, hongos, oomicetes

Sin genoma de referencia

• Ensamblado “de novo”.

• Bioinformaticamente mas complejo que secuenciación Genómica “de novo” .

• Requiere normalización de colecciones ADNc antes de la secuenciación masiva

Mapeo de lecturas

Microarray y RNAseq: necesidad de validación!

Validación de genes por Northern Blot y qRT-PCR:

CH SH CR SR CT ST

Relación de intensidad normalizada

banda transcripto-específica/banda

ribosomal utilizando la concentración

de ARN ribosomal

1,00 7,82 1,00 1,56 1,00 1,99

Gel de agarosa 1,5% y

Northern Blot de los ARNs de

diferentes órganos de

plantas de girasol sometidas

a estrés por salinidad.

CH: control hoja,

SH: salinidad hoja,

CR: control raíz,

SR: salinidad raíz,

CT: control tallo,

ST: salinidad tallo

(BU671801)

-4

-2

0

2

4

6

8

10

12

T1 T2 T1 T2 T1 T2 T1 T2 T1 T2 T1 T2 T1 T2 T1 T2 T1 T2 T1 T2

Log2

tas

a d

e c

amb

io

Micromatriz

qPCR

16

3

12

82

25

35

35

10

43

83

51

24

10

81

6

11

48

9

11

81

2

37

54

0

Identificacion de factor Avr ve1 en

Verticilliun dahliae por RNA-seq

5110–5115 | PNAS | March 27, 2012 | vol. 109 | no. 13

Estrategia de secuenciación

genómica de variantes y RNA seq

por ILLUMINA para la identificación

del Factor de Avr Ve1 de Verticillium

dahliae (Ave1) que interactua con el

gen R Ve1 de tomate.

Ejemplos de Transcriptomica en el estudio de

relación H-P

≈27,6 millones de lecturas por cada

condicion biológica (12, 24 Y 48hpi)

77% lecturas mapeadas sobre el

genoma de lechuga

RNA-seq vs. microarray

• RNA-seq puede ser utilizado para caracterizar nuevos transcriptos y variantes de

splicing, así como realizar un perfil de los niveles de expresión de los transcriptos

conocidos; mientras que las técnicas basadas en hibridación se limitan a detectar

transcriptos correspondientes a las secuencias genómicas conocidas

• RNA-seq tiene mayor resolución

En principio, el RNAseq puede lograr la resolución de un solo ARNm, mientras que

en los microarray depende de la densidad de sondas.

Detección de transcriptos desconocidos con niveles de expresión muy bajos.

• RNA-seq se puede aplicar el mismo protocolo experimental para diversos fines,

mientras que los microarrays especializados necesitan ser diseñadas para cada

caso.

Detección de polimorfismos de nucleótido único (SNP array)

Mapeo de uniones exonicas (junction array)

Detección de fusiones génicas (gene fusion array)

• Tecnologías de Next-generation sequencing (NGS) están desafiando los microarrays

como la herramienta de elección para análisis genómicos.

Análisis por categorías funcionales:

FATIGO, FATISCAN, GenSet Analysis (Babelomics)

Función Molecular

Linea Girasol Resistente – Sclerotinia I vs NI

0, 2 y 4 dpi

INTERPRETACIÓN DE RESULTADOS

Mapman

BINCODE NAME IDENTIFIER DESCRIPTION TYPE

1 PS

1.1 PS.lightreaction

1.1.1 PS.lightreaction.photosystem II

1.1.1.1 PS.lightreaction.photosystem II.LHC-II HeAn_C_11607 moderately similar to ( 431) AT3G47470 | Symbols: LHCA4, CAB4 | LHCA4 (LIGHT-HARVESTING CHLOROPHYLL-PROTEIN COMPLEX I SUBUNIT A4); chlorophyll binding | chr3:17493622-17494773 REVERSEmoderately similar to ( 231) CB12_PETHY Chlorophyll a-b binding protein, chloroplast precursor (LHCI type II CAB) - Petunia hybrida (Petunia)moderately similar to ( 378) loc_os08g33820 12008.m080044 protein chlorophyll a-b binding protein 4, chloroplast precursor, putative, expressed Contig11607T

1.1.1.2 PS.lightreaction.photosystem II.PSII polypeptide subunits HeAn_C_3889 moderately similar to ( 225) AT2G39050 | Symbols: | hydroxyproline-rich glycoprotein family protein | chr2:16303427-16305336 FORWARDweakly similar to ( 153) PSBP_SOLTU Oxygen-evolving enhancer protein 2, chloroplast precursor (OEE2) (23 kDa subunit of oxygen evolving system of photosystem II) (OEC 23 kDa subunit) (23 kDa thylakoid membrane protein) - Solanum tuberosum (Potato)moderately similar to ( 229) loc_os07g48500 12007.m09063 protein stress responsive protein, putative, expressed Contig3889T

1.1.2 PS.lightreaction.photosystem I HeAn_C_677 moderately similar to ( 260) AT1G45474 | Symbols: LHCA5 | LHCA5; pigment binding | chr1:17179353-17180439 FORWARDweakly similar to ( 130) CB12_PETHY Chlorophyll a-b binding protein, chloroplast precursor (LHCI type II CAB) - Petunia hybrida (Petunia)moderately similar to ( 247) loc_os02g52650 12002.m10295 protein chlorophyll a-b binding protein 4, chloroplast precursor, putative, expressed Contig677T

1.1.2.1 PS.lightreaction.photosystem I.LHC-I HeAn_S_37979 moderately similar to ( 304) AT4G12800 | Symbols: PSAL | PSAL (photosystem I subunit L) | chr4:7521469-7522493 FORWARDmoderately similar to ( 303) PSAL_CUCSA Photosystem I reaction center subunit XI, chloroplast precursor (PSI-L) (PSI subunit V) - Cucumis sativus (Cucumber)moderately similar to ( 262) loc_os12g23200 12012.m26900 protein photosystem I reaction center subunit XI, chloroplast precursor, putative, expressed DY919999T

1.1.2.2 PS.lightreaction.photosystem I.PSI polypeptide subunits HeAn_C_3253 moderately similar to ( 229) AT2G31040 | Symbols: | ATP synthase protein I -related | chr2:13209094-13211012 REVERSEmoderately similar to ( 207) loc_os01g48300 12001.m43139 protein expressed protein Contig3253T

11 lipid metabolism

11.3 lipid metabolism.Phospholipid synthesis HeAn_S_18559 moderately similar to ( 222) AT3G18850 | Symbols: LPAT5 | LPAT5; acyltransferase | chr3:6499529-6500840 REVERSEvery weakly similar to (87.8) LPAT2_BRAOL 1-acyl-sn-glycerol-3-phosphate acyltransferase 2 (EC 2.3.1.51) (Lysophosphatidyl acyltransferase 2) - Brassica oleracea (Wild cabbage)moderately similar to ( 224) loc_os01g57360 12001.m11887 protein 1-acyl-sn-glycerol-3-phosphate acyltransferase 4, putative, expressed GE503752T

11.3.2 lipid metabolism.Phospholipid synthesis.choline kinase HeAn_S_17701 moderately similar to ( 254) AT4G09760 | Symbols: | choline kinase, putative | chr4:6148955-6151150 REVERSEmoderately similar to ( 265) loc_os05g45880 12005.m08713 protein ethanolamine kinase 1, putative, expressed GE505193T

3.1.1001 minor CHO metabolism.raffinose family raffinose minor CHO metabolism.raffinose M

13.1.7.1002 amino acid metabolism.synthesis.histidine histidine amino acid synthesis.histidine M

Análisis transcriptómico relacionado

a la senescencia foliar en girasol

Campo 10.173 7.890

Invernáculo 7.517 3.714

Estudio integrador relacionado a la senescencia foliar en girasol

Campo control: Tiempo 1 vs Tiempo 0

Mapman

Paintomics Librería KEGG

(http://www.genome.jp/kegg/)

Weighted Gene Correlation

Network Analysis (WGCNA)

Biología de Sistemas

Fenotipo

Genómica Transcriptómica Proteómica Metabolómica Fenómica

GRACIAS!!