Upload
others
View
10
Download
0
Embed Size (px)
Citation preview
1
¿ Qué es la bioinformática ?
Dr. Omar Orellana
2013
¿Qué podemos resolver mediante Bioinformática ? :
• Identificar genes específicos en un genoma, identificar todos los genes ytodas las proteínas de un organismo.
• Inferir la forma de una proteína (estructura terciaria) y su función a partirde una secuencia de aminoácidos.
• Determinar los sitios en la estructura de una proteína donde se pueden unirligandos.
• Determinar las interacciones entre los genes y proteínas que pertenecen aun sistema biológico.
Para estos propósitos, la búsqueda de SIMILITUDES entre secuencias o estructuras conocidas es el criterio principal.
Procedimientos que se utilizan en bioinformática
• Búsquedas por similitud
• Alineamiento de estructuras primarias (secuencias)
• Construcción de árboles filogenéticos
• Predicción de estructura secundaria (RNA y proteínas)
• Alineamiento de estructuras terciarias
• Predicción de estructuras terciarias (RNA y proteínas)
• Clasificación de dominios y estructuras (familias)
• Predicción de función de proteínas
• Agrupamiento de datos de expresión (microarrays, geles 2-D)
• Reconstrucción metabólica
• Simulación de procesos celulares
2
(Técnica 1)
Secuenciamento del DNA:
método con dideoxinucleótidos
(Técnica 1)
Secuenciamento del DNA:
método con dideoxinucleótidos
Secuenciamento del DNA:
“pirosecuenciamiento”
(Técnica 1)
3
Secuenciamento del DNA:
“pirosecuenciamiento”
(Técnica 1)
Genoma de Haemophilus influenzae
4
Genomas secuenciados
5
Bases de datos de secuencias de ácidos nucleicos
EMBL
http://www.ebi.ac.uk/embl/
GeneBank
http://www.ncbi.nlm.nih.gov/
DDBJ
Expressed sequence tag (EST)
http://www.ncbi.nlm.nih.gov/dbEST/
KEGG
http://www.genome.jp/kegg/
Bases de datos de proteínas:
Primarias (secuencias)PIR (Protein Information Resource)
http://pir.georgetown.edu/pirwww/dbinfo/iproclass.shtml
Swiss-Prot
http://www.expasy.ch/sprot/
Secundarias (patrones)
Prosite
http://expasy.org/prosite/
Pfam
Identify
PDBsum (estructuras)
Motivos estructurales:
Secuencias cortas que se conservan.
[GR] - C - [IV] - G - R - [ILS] - x – W
Unión de hemo
Zinc finger
CXXC
anotación automática:
es la integración de diversas herramientas
bioinformáticas con múltiples bases de datos
en una única “suite” para gestionar
automáticamente el análisis y
almacenamiento de una secuencia.
anotación manual:
una persona (anotador) revisa la anotación,
gen por gen, verificando la anotación
automática, agregando anotaciones
manuales, corrigiendo eventualmente algún
problema particular.
¿Cómo se ingresa una secuencia a una base de datos?
6
http://www.oxfordjournals.org/nar/database/a
Nucl. Acids Res. (2011) 39 (suppl 1): D1-D6.
The 2011 Nucleic Acids Research Database Issue and
the online Molecular Biology Database Collection (1330)
Michael Y. Galperin1,* and Guy R. Cochrane2
Algoritmos para el análisis de secuencias:
Alineamiento simple (dos secuencias)Matrices de puntos (“dot plots”)
Alineamiento global (Needleman – Wunsch)
Alineamiento local (Smith – Waterman)
Programación dinámica
Heurísticas para búsqueda en bases de datos de secuenciasFastA
BLAST
Análisis de secuencias de macromoléculas:
Identificar genes en una secuencia
Determinar la función de un gen
Identificar proteínas y su función
Identificar regiones conservadas (patrones)
Identificar regiones funcionales en un genoma
Inferir relaciones evolutivas
7
Alineamiento de pares de secuencias
Definición: comparación lineal de secuencias aminoacídicas
o nucleotídicas donde se han hecho inserciones de espacios
(“gaps”) para ubicar correctamente las posiciones
equivalentes en secuencias adyacentes.
Son la base de los métodos de análisis de secuencias, y se
usan para identificar la ocurrencia de motivos conservados.
¿Cómo alinear dos secuencias de
forma óptima?
G A C G G A T T
G A T C G G T T
G A - C G G A T T
G A T C G G - T T
¿Qué nos interesa saber de una secuencia de DNA?
¿Cómo identificamos la función de una secuencia nueva?
>ttttggccgtatcggtcgcattgttttccgtgctgctcaga
Aacgttctgacatcgagatcgttgcaatcaacgacctgtta
Gacgctgattacatggcatacatgctgaaatatgactccac
Tcacggccgtttcgacggtaccgttgaagtgaaagacggtc
Atctgatcgttaacggtaaaaaaatccgtgttaccgctgaa
Cgtgatccggctaacctgaaatgggacgaagttggtgttga
Cgttgtcgctgaagcaactggtctgttcctgactgacgaaa
Ctgctcgtaaacacatcaccgctggtgcgaagaaagtggtt
Atgactggtccgtctaaagacaacactccgatgttcgttaa
Aggcgctaacttcgacaaatatgctggccaggacatcgttt
Ccaacgcttcctgcaccaccaactg
Ir a BLAST
8
9
ttttggccgtatcggtcgcattgttttccgtgctgctcagaaacgttctgacatcgagatcgttgcaatcaacgacctgttagacgc
MARCO 1 F W P Y R S H C F P C C S E T F * H R D R C N Q R P V R R
MARCO 2 F G R I G R I V F R A A Q K R S D I E I V A I N D L L D A
MARCO 3 L A V S V A L F S V L L R N V L T S R S L Q S T T C * T L
tgattacatggcatacatgctgaaatatgactccactcacggccgtttcgacggtaccgttgaagtgaaagacggtcatctgatcgt
MARCO 1 * L H G I H A E I * L H S R P F R R Y R * S E R R S S D R
MARCO 2 D Y M A Y M L K Y D S T H G R F D G T V E V K D G H L I V
MARCO 3 I T W H T C * N M T P L T A V S T V P L K * K T V I * S L
taacggtaaaaaaatccgtgttaccgctgaacgtgatccggctaacctgaaatgggacgaagttggtgttgacgttgtcgctgaagc
MARCO 1 * R * K N P C Y R * T * S G * P E M G R S W C * R C R * S
MARCO 2 N G K K I R V T A E R D P A N L K W D E V G V D V V A E A
MARCO 3 T V K K S V L P L N V I R L T * N G T K L V L T L S L K Q
aactggtctgttcctgactgacgaaactgctcgtaaacacatcaccgctggtgcgaagaaagtggttatgactggtccgtctaaaga
MARCO 1 N W S V P D * R N C S * T H H R W C E E S G Y D W S V * R
MARCO 2 T G L F L T D E T A R K H I T A G A K K V V M T G P S K D
MARCO 3 L V C S * L T K L L V N T S P L V R R K W L * L V R L K T
caacactccgatgttcgttaaaggcgctaacttcgacaaatatgctggccaggacatcgtttccaacgcttcctgcaccaccaactg
MARCO 1 Q H S D V R * R R * L R Q I C W P G H R F Q R F L H H Q L
MARCO 2 N T P M F V K G A N F D K Y A G Q D I V S N A S C T T N C
MARCO 3 T L R C S L K A L T S T N M L A R T S F P T L P A P P T A
http://www.ncbi.nlm.nih.gov/
Ir a ORFFINDER
FGRIGRIVFRAAQKRSDIEIVAINDLLDADYMAYMLKYDSTHGRFDGTVEVKDGHLIV
NGKKIRVTAERDPANLKWDEVGVDVVAEATGLFLTDETARKHITAGAKKVVMTGPSKD
NTPMFVKGANFDKYAGQDIVSNASCTTNC
Ir a BLAST
http://www.ncbi.nlm.nih.gov/
10
Matriz PAM 250
11
Matriz Blosum62
¿Cómo definimos un gen en bacterias?
12
Criterios y herramientas para la
anotación de genes
Glimmer
Critica
Testcode
Genscan
RBS finding
Neuralnetworks
Codon usage
%GC
HMM-based
Comparative Analyses
Probabilistic tools
Probabilistic tools
Motif-based
Motif based
Genome properties
Genome properties
Predicción de Promotores
http://www.fruitfly.org/seq_tools/promoter.html
•NNPP es un Programa
para búsqueda de
promotores eucarióticos y
procarioticos en una
secuencia de DNA.
• La base del programa es
una red neural (time-
delay) que reconoce la
caja TATA y la secuencia
iniciadora, que se
encuentra en la región
que comprende el inicio
de la transcripción.
13
Búsqueda de terminadores de la transcripción.
•Transterm encuentra
terminadores de la
transcripción rho-
independiente en
genomas bacterianos.
•A cada terminador
se le asigna un valor
de confianza que
estima la
probabilidad de ser
un terminador
verdadero
Búsqueda de terminadores de la transcripción.
http://rna.igmors.u-psud.fr/toolbox/arnold/index.php
• ARNold encuentra terminadores rho independientes en secuencias deácidos nucleicos. La búsqueda usa dos programas complementarios Erpin yRNAmotif.
• En el programa Erpin, a partir de un set de entrenamiento de 1200secuencias terminadoras de Bacillus subtilis y Escherichia coli, seconstruye un perfil de puntuación y en base a este perfil se busca en lassecuencias entregadas por el usuario.
• RNAmotif usa un algoritmo que reconoce terminadores de E. coli queademás puede ser aplicado para búsqueda de terminadores de cualquierespecie. Se basa en la descripción de una hélice de 4-18 pb, un espaciadorde 0 a 2 nt y una región rica en T. A las búsquedas de RNAmotif se lesasigna un valor de puntuación dependiendo del contenido de T y laestabilidad del stem-loop.
• Se calcula la energía libre de la estructura stem-loop terminadora usandoRNAfold. Este valor de energía libre se usa como valor de confianza parala predicción de terminadores.
ARNold
14
Genoma de Haemophilus influenzae
FGRIGRIVFRAAQKRSDIEIVAINDLLDADYMAYMLKYDSTHGRFDGTVEVKDGHLIV
NGKKIRVTAERDPANLKWDEVGVDVVAEATGLFLTDETARKHITAGAKKVVMTGPSKD
NTPMFVKGANFDKYAGQDIVSNASCTTNC
http://www.ncbi.nlm.nih.gov/
Secuencia aminoacídica de un segmento de una proteína
Análisis de la estructura de una proteína FGRIGRIVFRAAQKRSDIEIVAINDLLDADYMAYMLKYDSTHGRFDGTVE
VKDGHLIVNGKKIRVTAERDPANLKWDEVGVDVVAEATGLFLTDETARKH
ITAGAKKVVMTGPSKDNTPMFVKGANFDKYAGQDIVSNASCTTNCLAPLA
Predicción de la estructura secundaria de la Predicción de la estructura secundaria de la Gliceraldehído 3 fosfato deshidrogenasaGliceraldehído 3 fosfato deshidrogenasa
KVINDNFGIIEGLMTTVHATTATQKTVDGPSHKDWRGGRGASQNIIPSST
GAAKAVGKVLPELNGKLTGMAFRVPTPNVSVVDLTVRLEKAATYEQIKAA
VKAAAEGEMKGVLGYTEDDVVSTDFNGEVCTSVFDAKAGIALNDNFVKLV
SWYDNETGYSNKVLDLIAHISK estructura alfa
estrctura beta
vuelta (loop)
11
15
http://swissmodel.expasy.org/workspace/[email protected]&key=a121072a984a78c349cc5a3a3f77c965
&func=workspace_modelling&prjid=P000001
16
Estructura primaria (secuencia de aminoácidos)
Predicción estructura secundaria
Generación de modelos basados en un molde
Refinamiento y validación del modelo
Modelo finalAlineamiento de las secuencias de la Alineamiento de las secuencias de la GliceraldehídoGliceraldehído 3 fosfato 3 fosfato
deshidrogenasa ddeshidrogenasa de diferentes organismose diferentes organismos
E.coli FGRIGRIVFRAAQKRSDIEIVAIND-LLDADYMAYMLKYDSTHGRFDGTV 58
S.typhimurium FGRIGRIVFRAAQKRSDIEIVAIND-LLDAEYMAYMLKYDSTHGRFDGTV 52
S.cerevisiae FGRIGRLVLRLALQRKDIEVVAVNDPFISNDYAAYMVKYDSTHGRYKGTV 58
H.sapiens FGRIGRLVTRAAFNSGKVDIVAINDPFIDLNYMVYMFQYDSTHGKFHGTV 60
H.pylori TGRIGLCAIRVASQRKDVEIVAINS-TAELETLLHLIRHDSVHGHFEAKL 58
**** . * * : .:::**:*. . : ::.::**.**::...:
E.coli EVKDGHLIVNGKKIRVTAERDPANLKWDEVGVDVVAEATGLFLTDETARKHITAGAKKVV 118
S.typhimurium EVKDGHLIVNGKKIRVTAERDPANLKWDEVGVDVVAEATGIFLTDETARKHITAGAKKVV 112
S.cerevisiae SHDDKHIIIDGVKIATYQERDPANLPWGSLKIDVAVDSTGVFKELDTAQKHIDAGAKKVV 118
H.sapiens KAENGKLVINGNPITIFQERDPSKIKWGDAGAEYVVESTGVFTTMEKAGAHLQGGAKRVI 120
H.pylori NANRTLNIGHSKNILVLSERDINKLDFSVANAEIIIECTGKFNSLEASSAHLKNSVKKVI 118
. . : .. * *** :: :. : :.** * : : *: ..*:*:
E.coli MTGPSKDNTPMFVKGANFDKYA-GQDIVSNASCTTNCLAPLAKVINDNFGIIEGLMTTVH 177
S.typhimurium LTGPSKDNTPMFVKGANFDKYE-GQDIVSNASCTTNCLAPLAKVINDNFGIIEGLMTTVH 171
S.cerevisiae ITAPSS-SAPMFVVGVNHTKYTPDKKIVSNASCTTNCLAPLAKVINDAFGIEEGLMTTVH 177
H.sapiens ISAPSA-DAPMFVMGVNHEKYDNSLKIISNASCTTNCLAPLAKVIHDNFGIVEGLMTTVH 179
H.pylori ISAPAQ-NAPTFVYGVNHTNYH-NESVISNASCTTNATAPLLKILDEAFKVENALLTTIH 176
::.*: .:* ** *.*. :* . .::********. *** *::.: * : :.*:**:*
9
17
Predicción de la estructura y función
de ácidos ribonucleicos
Predicción de genes que codifican para RNA de transferencia
18
Acidithiobacillus ferrooxidans
• Two GluRS (GluRS1, GluRS2)
• GluQRS
•AspRS
• four tRNAGlu, four tRNAGln
• No GlnRS, AsnRS
• gatCAB (AdT)
• GluTR
• GSAm
•Gram negative, γγγγ proteobacterium
• acidophile (pH 1,5-4,0), autotrophic
• chemolithotrophic:
• oxidizes ferrous ions
• reduced sulfur compounds
• bioleaching of minerals
• high cytochromes content
Río Tinto,
Spain
Comparación de dos genomas de A. ferrooxidans
= genes de tRNA
Genes
tRNA
59
96
37
19
Predicción de posibles operones en el Cluster de genes
de tRNA
20
Predicción de la estructura secundaria de un RNA similar a tRNA
Fin