80
Predicción de estructuras de proteínas y ARN Dr. Eduardo A. RODRÍGUEZ TELLO CINVESTAV-Tamaulipas 19 de julio del 2012 Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Predicción de estructuras 19 de julio del 2012 1 / 76

Predicción de estructuras de proteínas y ARNertello/bioinfo/sesion15.pdf · Predicción de la estructura terciaria de proteínas Métodos basados en homología Alineamiento de secuencias

  • Upload
    others

  • View
    4

  • Download
    0

Embed Size (px)

Citation preview

Predicción de estructuras de proteínas y ARN

Dr. Eduardo A. RODRÍGUEZ TELLO

CINVESTAV-Tamaulipas

19 de julio del 2012

Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Predicción de estructuras 19 de julio del 2012 1 / 76

1 Predicción de la estructura secundaria de proteínasIntroducciónMétodos ab initioMétodos basados en homologíaPredicción con redes neuronales

2 Predicción de la estructura terciaria de proteínasIntroducciónMétodos basados en homologíaMétodos basados en plegado (threading)Modelos Ab Initio

3 Predicción de la estructura secundaria de ARNIntroducciónTipos de estructuras de ARNMétodos de predicción

Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Predicción de estructuras 19 de julio del 2012 2 / 76

Predicción de la estructura secundaria de proteínas Introducción

Introducción

Las estructuras secundarias son conformaciones locales establesde una cadena polipeptídica

Son esenciales en la determinación de la estructuratridimensional de proteínas

Incluyen elementos estructurales regulares y altamente repetidoscomo las hélices-α y las hojas-β

Se estima que cerca del 50 % de los residuos de una proteína sepliegan en alguna de esas dos formas

Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Predicción de estructuras 19 de julio del 2012 3 / 76

Predicción de la estructura secundaria de proteínas Introducción

Introducción

La predicción de estructuras secundarias de proteínas se refiere ala identificación del estado de conformación de cada residuo delos aminoácidos en la secuencia de una proteína

Dichos estados de conformación pueden ser de tres tipos: Hélices(H), Hebras (E) o Rizos (C).

La predicción está basada en el hecho de que las estructurassecundarias tienen un arreglo regular de los aminoácidos,estabilizado por los enlaces de hidrógeno

Esta regularidad sirve de base a los algoritmos de predicción

Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Predicción de estructuras 19 de julio del 2012 4 / 76

Predicción de la estructura secundaria de proteínas Introducción

Introducción

La predicción de estructuras secundarias de proteínas tieneaplicación en la clasificación de proteínas y en la separación dedominios de proteínas y de motivos funcionales

Además es un paso intermedio para determinar la estructuraterciaria de proteínas

Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Predicción de estructuras 19 de julio del 2012 5 / 76

Predicción de la estructura secundaria de proteínas Introducción

Introducción

Los métodos para la predicción de la estructura secundaria deproteínas (globulares) son de dos tipos:

Basados en ab initio. Predicen la estructura secundaria empleandoinformación estadística calculada a partir de una sola secuencia

Basados en homología. No sólo toman en cuenta estadísticas delos residuos de una secuencia, además también consideranpatrones comunes conservados entre múltiples secuenciashomólogas

Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Predicción de estructuras 19 de julio del 2012 6 / 76

Predicción de la estructura secundaria de proteínas Métodos ab initio

Métodos ab initio

Este tipo de métodos mide la tendencia relativa de cadaaminoácido de pertenecer a cierto tipo de elemento de estructurasecundaria

Las puntuaciones de propensión fueron derivadas de estructurasconocidas de cristales

Algunos ejemplos: Chou-Fasman y Ganier, Osguthorpe y Robson(GOR)

Estos pertenecen a la primera generación de métodos depredicción (1970s)

La información estructural de proteínas era limitada y lasestadísticas eran derivadas de conjuntos de datos restringidos(baja exactitud)

Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Predicción de estructuras 19 de julio del 2012 7 / 76

Predicción de la estructura secundaria de proteínas Métodos ab initio

Método Chou-Fasman

Determina la tendencia de cada residuo a encontrarse en unahélice, una hebra o un giro usando frecuencias observadas encristales de proteínas

El cálculo de la puntuación de propensión es simple.

Supongamos que hay n residuos en la estructura de la proteínade los cuales m son residuos en hélices

El número total de residuos de Alanina es y de los cuales x estánen hélices

La puntuación de propensión para la Alanina de estar en unahélice está dada por la siguiente relación:

(x/m)

(y/n)(1)

Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Predicción de estructuras 19 de julio del 2012 8 / 76

Predicción de la estructura secundaria de proteínas Métodos ab initio

Método Chou-Fasman

Si la puntuación de propensión para un residuo es igual a 1.0para hélices (P(hélice-α)) significa que el residuo tiene igualprobabilidad de ser encontrado en una hélice o en cualquier otraestructura

Si P(hélice-α) < 1,0 entonces el residuo tiene poca oportunidadde ser encontrado en una hélice

Si P(hélice-α) > 1,0 entonces es altamente probable que elresiduo se encuentre en una hélice

Usando este concepto Chou y Fasman crearon la siguiente tabla

Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Predicción de estructuras 19 de julio del 2012 9 / 76

Predicción de la estructura secundaria de proteínas Métodos ab initio

Método Chou-Fasman

Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Predicción de estructuras 19 de julio del 2012 10 / 76

Predicción de la estructura secundaria de proteínas Métodos ab initio

Método Chou-Fasman

El algoritmo Chou-Fasman toma la secuencia y la divide enventanas de tamaño fijo para determinar el número de residuospertenecientes a cada estructura usando la puntuación depropensión

Para hélices-α la ventana es de tamaño 6, si una región tiene 4residuos contiguos cada uno con P(hélice-α) > 1,0, se concluyeque el conjunto forma parte de una hélice

Esta región en hélice se extiende en ambas direcciones hasta queP(hélice-α) < 1,0

Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Predicción de estructuras 19 de julio del 2012 11 / 76

Predicción de la estructura secundaria de proteínas Métodos ab initio

Método Chou-Fasman

Para las hebras-β utiliza una ventana de 5 residuos, si se tienenal menos 3 residuos cada uno con P(hebra-β) > 1,0, se concluyeque el conjunto forma parte de una hebra-β

Si ambos tipos de estructuras se traslapan en cierta región, setoma la siguiente decisión

Si∑

P(hélice-α) >∑

P(hebra-β) entonces se concluye unahélice-α

Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Predicción de estructuras 19 de julio del 2012 12 / 76

Predicción de la estructura secundaria de proteínas Métodos ab initio

Método GOR

También se basa en la puntuación de propensión de cada residuode estar en cada una de las 4 siguientes estructuras: Hélices (H),Hebras (E), Giros (T) o Rizos (C).

Sin embargo, toma en cuenta para este cálculo las interaccionescon los residuos vecinos

Examina una ventana de 17 residuos y suma la propensión paralos residuos para las 4 posibles estructuras (4 sumatorias)

La puntuación más alta define el tipo de estructura al quepertenece el residuo al centro de la ventana (noveno residuo)

Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Predicción de estructuras 19 de julio del 2012 13 / 76

Predicción de la estructura secundaria de proteínas Métodos ab initio

Método GOR

Tanto este método como el de Chou-Fasman tienen la desventajade tener baja precisión de predicción (aprox. 50 %)

Sin embargo, han surgido algunas nuevas versiones como GORII, GOR III y GOR IV (1980s e inicio de 1990s)

Integran estadísticas más refinadas basadas en un número másgrande de proteínas conocidas e incorporan más interaccioneslocales entre residuos

Su precisión de predicción mejoró 10 %

Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Predicción de estructuras 19 de julio del 2012 14 / 76

Predicción de la estructura secundaria de proteínas Métodos basados en homología

Métodos basados en homología

Son la tercera generación de métodos (finales de 1990s) yemplean información evolutiva

Combinan métodos ab initio para predicción de la estructurasecundaria de secuencias individuales e información dealineamiento múltiple de secuencias homologas (identidad> 35%)

La idea detrás de este enfoque es que proteínas homologasadoptan la misma estructura secundaria y terciaria

Este tipo de métodos han ayudado a mejorar la precisión depredicción en 10 % con respecto a los métodos de segundageneración

Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Predicción de estructuras 19 de julio del 2012 15 / 76

Predicción de la estructura secundaria de proteínas Métodos basados en homología

Métodos basados en homología

Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Predicción de estructuras 19 de julio del 2012 16 / 76

Predicción de la estructura secundaria de proteínas Predicción con redes neuronales

Predicción con redes neuronales

La tercera generación de algoritmos de predicción también haceuso de redes neuronales para analizar patrones de substituciónen alineamientos de múltiples secuencias

Esto ha permitido aumentar la precisión de predicción a un 75 %

Algunos ejemplos de aplicaciones que utilizan redes neuronales:PHD, PSIPRED, SSpro, PROF, HMMMSTR

Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Predicción de estructuras 19 de julio del 2012 17 / 76

Predicción de la estructura terciaria de proteínas Introducción

Predicción de la estructura terciaria de proteínas

Existen tres enfoques computacionales para el modelado ypredicción de estructuras tridimensionales de proteínas

Homología

Plegado (Threading)

Ab initio

Los dos primeros se basan en el conocimiento estructural de laproteína obtenido de las BD, mientras que el tercero no requierede ninguna información adicional

Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Predicción de estructuras 19 de julio del 2012 18 / 76

Predicción de la estructura terciaria de proteínas Métodos basados en homología

Métodos basados en homología

Como su nombre lo indica, predice las estructuras de lasproteínas mediante la comparación con estructuras de proteínashomólogas conocidas

También es llamado Modelo Comparativo

Se basa en el principio de que si dos proteínas tienen un altogrado de similitud es muy probable que tengan estructurastridimensionales similares

El modelo de homología general consta de 6 pasos

Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Predicción de estructuras 19 de julio del 2012 19 / 76

Predicción de la estructura terciaria de proteínas Métodos basados en homología

Selección de plantilla

Consiste en encontrar las estructuras principales y sirve comobase para el proceso de modelado

Este paso consiste en la búsqueda en el Banco de Datos deProteínas (PDB) para seleccionar aquellas proteínas homólogas

Esta búsqueda se pude llevar a cabo mediante cualquier métodode alineamiento de pares tales como BLAST o FASTA.

Por lo general, es posible encontrar varias estructuras con unporcentaje de similitud considerable, sin embargo se recomiendausar sólo aquella con el porcentaje más alto

Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Predicción de estructuras 19 de julio del 2012 20 / 76

Predicción de la estructura terciaria de proteínas Métodos basados en homología

Alineamiento de secuencias

Una vez identificada la secuencia con mayor similitud, se lleva acabo un reajuste, para ello se usa un algoritmo de alineamientopara obtener una adaptación óptima entre las secuencias

Se considera como el paso más critico, ya que un alineamientoincorrecto conducirá a una designación incorrecta de los residuos

Los algoritmos usados en este paso pueden ser T-Coffe o Praline

De ser necesario se puede llevar a cabo un perfeccionamientomanual del resultado arrojado por el algoritmo

Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Predicción de estructuras 19 de julio del 2012 21 / 76

Predicción de la estructura terciaria de proteínas Métodos basados en homología

Creación del esqueleto del modelo

Una vez teniendo el alineamiento óptimo, existen tresposibilidades para los residuos en las regiones alienadas:

1 Residuos similares. Las coordenadas de los residuos de la plantillapueden ser copiadas directamente a la proteína objetivo (query)

2 Residuos idénticos. Las coordenadas de los átomos de la cadenalateral se copian junto con los átomos de la cadena principal

3 Residuos diferentes. Sólo los átomos de la columna vertebral sepueden copiar

Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Predicción de estructuras 19 de julio del 2012 22 / 76

Predicción de la estructura terciaria de proteínas Métodos basados en homología

Modelado de bucles

Como sabemos, el resultado de un alineamiento de secuenciascausa la inserción de huecos, los cuales son el resultado por elalineamiento mismo

Estos huecos no pueden ser directamente modelados, por lo quese requiere de un modelo para “cerrar” estos huecos

Existen dos técnicas para abordar este problemaMétodo de búsqueda en BDMétodo ab initio

Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Predicción de estructuras 19 de julio del 2012 23 / 76

Predicción de la estructura terciaria de proteínas Métodos basados en homología

Modelado de bucles

El método de búsqueda en BD propone buscar “piezas derepuesto”, de estructuras conocidas de proteínas que se acoplenen el hueco

La secuencias de átomos que preceden y continúan a esta regiónse suelen llamar tallo.

El procedimiento inicia midiendo la orientación y distancia de lasregiones entre los tallos y buscar en PDB los segmentos de lamisma longitud que coincidan

Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Predicción de estructuras 19 de julio del 2012 24 / 76

Predicción de la estructura terciaria de proteínas Métodos basados en homología

Modelado de bucles

Suelen existir diferentes segmentos alternativos que se adapten aesta región

El mejor fragmento se copia en los puntos de anclaje de los tallos

El método ab initio genera muchos bucles y búsquedas al azar

Si los huecos son relativamente cortos (de 3 a 5 residuos) los dosmétodos producen modelos correctos

Si los huecos son muy largos, es muy difícil lograr un modelofiable

Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Predicción de estructuras 19 de julio del 2012 25 / 76

Predicción de la estructura terciaria de proteínas Métodos basados en homología

Modelado de bucles

FREADwww.cryst.bioc.cam.ac.uk/cgi-bin/coda/fread.cgi,usa el método de BD

PETRAwww.cryst.bioc.cam.ac.uk/cgi-bin/coda/pet.cgiemplea el método ab initio

CODA www.cryst.bioc.cam.ac.uk/~charlotte/Coda/search_coda.html utiliza consenso basado en los resultadosde los dos sitios anteriores

Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Predicción de estructuras 19 de julio del 2012 26 / 76

Predicción de la estructura terciaria de proteínas Métodos basados en homología

Perfeccionamiento de la cadena lateral

Una vez que la cadena principal de átomos está construida, lasposiciones de las cadenas laterales deben ser determinadas

La cadena lateral puede ser construida mediante la búsqueda decada ángulo de torsión, seleccionando aquellos que tengan lamenor interacción de energía con sus vecinos

Sin embargo, esto no se puede llevar a cabo en la mayoría de loscasos (computacionalmente prohibitivo)

Para ello ha surgido el concepto de rotamers, el cual usa losángulos de torsión extraídos de estructuras de proteínasconocidas

Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Predicción de estructuras 19 de julio del 2012 27 / 76

Predicción de la estructura terciaria de proteínas Métodos basados en homología

Perfeccionamiento de la cadena lateral

Teniendo una librería de rotamers se reduce el tiempo decómputo debido a que sólo unos cuantos ángulos de torsión sonexaminados

Sin embargo, aún es necesario reducir más el tiempo de cómputo,mediante observaciones se ha visto que la columna vertebral estarelacionada con ciertas conformaciones de la cadena lateral

Haciendo uso de la existencia de esta correlación, es posibleeliminar aún más ángulos innecesarios

Uno de los paquetes que ha demostrado presentar un buendesempeño es SCWRLwww.fccc.edu/research/labs/dunbrack/scwrl/

Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Predicción de estructuras 19 de julio del 2012 28 / 76

Predicción de la estructura terciaria de proteínas Métodos basados en homología

Refinamiento mediante funciones de energía

Hasta este paso no se garantiza que la estructura este libre deirregularidades

Para tratar de solucionar esto, se hace uso de la minimización deenergía, esto tiene como objetivo reducir la energía al mínimopara aliviar tensiones y colisiones sin afectar significativamente laestructura

Este paso debe aplicarse cuidadosamente, ya que en ocasioneses posible que residuos se muevan a otras posiciones incorrectas

Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Predicción de estructuras 19 de julio del 2012 29 / 76

Predicción de la estructura terciaria de proteínas Métodos basados en homología

Refinamiento mediante funciones de energía

Otro método hace uso del proceso de simulación de dinámicamolecular

Este hecho se basa en que la minimización de la energía seobtiene moviendo los átomos de un mínimo local sin necesidadde buscar todas las posibles combinaciones

Requiere de cálculos termodinámicos con los átomos

GROMOS www.igc.ethz.ch/gromos/ es un programa el cualusa simulación de dinámica molecular

Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Predicción de estructuras 19 de julio del 2012 30 / 76

Predicción de la estructura terciaria de proteínas Métodos basados en homología

Evaluación del modelo

El modelo obtenido tiene que ser evaluado para asegurarse deque las características estructurales del modelo son coherentescon las normas físico-químicas

Para ello se detectan los errores haciendo uso de perfilesestadísticos, características espaciales e interacción de energía através de estructuras determinadas experimentalmente

Si se detectan irregularidades estructurales, la región seconsidera con errores y tiene que ser perfeccionada

Procheck www.biochem.ucl.ac.uk/~roman/procheck/procheck.html es un programa el cual es capaz de comprobarlos parámetros físico-químicos

Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Predicción de estructuras 19 de julio del 2012 31 / 76

Predicción de la estructura terciaria de proteínas Métodos basados en homología

Evaluación del modelo

WHAT IF www.cmbi.kun.nl:1100/WIWWWI/ es un servidor deanálisis de proteínas que valida una proteína mediante correcciónquímica.

ANOLEA http://protein.bio.puc.cl/cardex/servers/anolea/index.html es un servidor web que utiliza el métodode evaluación estadística

Verify3D www.doe-mbi.ucla.edu/Services/Verify3D/ esotro servidor que utiliza el enfoque estadístico

Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Predicción de estructuras 19 de julio del 2012 32 / 76

Predicción de la estructura terciaria de proteínas Métodos basados en plegado (threading)

Métodos basados en plegado (threading)

En ocasiones muchas proteínas pueden compartir la mismaestructura aunque no exista mucha similitud en las secuencias

Esta propiedad permitió desarrollar métodos computacionalespara poder predecir estructuras de las proteínas sin importar lasimilitud de las secuencias

Para determinar si una secuencia adopta una estructuratridimensional conocida se hacen uso de los métodos dereconocimiento de plegado (threading)

Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Predicción de estructuras 19 de julio del 2012 33 / 76

Predicción de la estructura terciaria de proteínas Métodos basados en plegado (threading)

Métodos basados en plegado (threading)

Dicha comparación hace hincapié en la congruencia de lasestructuras secundarias, ya que estas son las más conservadasevolutivamente

Gracias a este enfoque se pueden identificar proteínasestructuralmente similares, incluso sin detectarse similitud algunaen la secuencia

Estos algoritmos se pueden clasificar en dos grupos: basados enpares de energías y basados en perfiles

Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Predicción de estructuras 19 de julio del 2012 34 / 76

Predicción de la estructura terciaria de proteínas Métodos basados en plegado (threading)

Métodos de pares de energía

Estos métodos buscan en una BD estructural la mejorcoincidencia, haciendo uso de un alineamiento con la secuenciade consulta

Este alineamiento se hace a nivel de perfil de las secuenciasusando programación dinámica. En ocasiones también se sueleusar un alineamiento local

El siguiente paso es construir un modelo el cual lleve a cabo unasustitución de residuos

Se calcula la energía, la cual consiste en la interacción de energíaentre los residuos

Finalmente se clasifican en base a la energía para encontrar lamenor de ellas (la estructura más compatible)

Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Predicción de estructuras 19 de julio del 2012 35 / 76

Predicción de la estructura terciaria de proteínas Métodos basados en plegado (threading)

Métodos de perfil

Se construye un perfil para un grupo de proteínas relacionadas,usando información estadística de cada residuo

Este perfil contiene la probabilidad de ocurrencia de cada uno delos veinte aminoácidos por cada posición

El puntaje de este perfil contiene información para tipos deestructuras secundarias

Para predecir el pliegue estructural, primero se predice suestructura secundaria y a partir de esta información se comparacon estructuras de perfiles conocidos

Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Predicción de estructuras 19 de julio del 2012 36 / 76

Predicción de la estructura terciaria de proteínas Métodos basados en plegado (threading)

Métodos basados en plegado (threading)

3D-PSSM www.bmm.icnet.uk/~3dpssm/ es un programabasado en perfiles para identificar estructuras.

GenThreaderhttp://bioinf.cs.ucl.ac.uk/psipred/index.html esun programa híbrido (perfiles y pares de energía)

Fugewww.cryst.bioc.cam.ac.uk/~fugue/prfsearch.html esun servidor el cual hace uso del método de perfiles

Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Predicción de estructuras 19 de julio del 2012 37 / 76

Predicción de la estructura terciaria de proteínas Modelos Ab Initio

Modelos Ab Initio

En los métodos vistos anteriormente se requiere de ladisponibilidad de plantillas en BD para poder lograr predicciones.Al no existir estructuras suficientes para ello, los métodos fallan

En estos caso se debe considerar otro tipo de información la cualpermita encontrar la estructura

El poco conocimiento de estas estructuras es la base del métodoab initio

Este trata de predecir todas las secuencias de átomos de laproteína sin la ayuda de estructuras de proteínas ya conocidas

Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Predicción de estructuras 19 de julio del 2012 38 / 76

Predicción de la estructura terciaria de proteínas Modelos Ab Initio

Modelos Ab Initio

Una de las ventajas de este método es que la predicción no selimita a los pliegues ya conocidos

Sin embargo, las leyes fisicoquímicas que rigen estecomportamiento aún no son bien conocidas, lo cual sigue siendoun gran reto de la bioinformática

Estos métodos trabajan con algún tipo de heurística, siguiendo elprincipio de minimización de energía, para lo que se lleva a cabouna búsqueda de todos los sitios posibles para encontrar dicharegión

Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Predicción de estructuras 19 de julio del 2012 39 / 76

Predicción de la estructura terciaria de proteínas Modelos Ab Initio

Modelos Ab Initio

Esta búsqueda global no es factible computacionalmente, ya queaún usando una supercomputadora (1× 1012 operaciones porseg) está se tardaría en muestrear todas las posiblesconformaciones para una proteína de 20 residuos entre 10 y 20años

Es por esta razón que se requiere hacer uso de heurísticas quepermitan reducir el espacio de búsqueda

Algunos de estos métodos fragmentan dicho espacio y combinandiversos tipos de búsqueda para producir un modelo

Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Predicción de estructuras 19 de julio del 2012 40 / 76

Predicción de la estructura terciaria de proteínas Modelos Ab Initio

Modelos Ab Initio

Rosettawww.bioinfo.rpi.edu/~bystrc/hmmstr/server.php esun servidor el cual permite predecir estructuras tridimensionalesusando el método ab initio.

Para ello rompe la secuencia en segmentos cortos (3 a 9residuos) prediciendo la estructura de estos segmentos haciendouso de modelos ocultos de Markov.

Los resultados para cada uno de estos segmentos se juntan parallevar a cabo la configuración en tres dimensiones (todas lascombinaciones posibles)

La conformación con la menor energía global es la elegida

Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Predicción de estructuras 19 de julio del 2012 41 / 76

Predicción de la estructura terciaria de proteínas Modelos Ab Initio

Modelos Ab Initio

Predicción de la estructura de proteínas (PSP)Es el problema de encontrar una conformación funcional para unaproteína dada únicamente su secuencia de aminoácidos.Formalmente:

Dado un modelo de energía E : C → R, encontrar laconformación c ∈ C que minimice E(c).

Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Predicción de estructuras 19 de julio del 2012 42 / 76

Predicción de la estructura terciaria de proteínas Modelos Ab Initio

Modelos Ab InitioModelo HP (Hydrophobic-Polar) [Dill, 1985]

Las proteínas son cadenas lineales formadas por aminoácidos

Los aminoácidos se abstraen y clasifican en: Hidrófobos (H) yPolares (P)

Dada la secuencia HP de una proteína S ∈ {H,P}L, lasconformaciones son modeladas como caminatas no traslapadasen una malla:

1 cada nodo de la malla puede ser asignado a máximo unaminoácido

2 aminoácidos consecutivos en S deben ser adyacentes en la malla

Principalmente se enfoca en mallas 2D cuadradas y 3D cúbicas

Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Predicción de estructuras 19 de julio del 2012 43 / 76

Predicción de la estructura terciaria de proteínas Modelos Ab Initio

Modelos Ab InitioModelo HP (Hydrophobic-Polar) [Dill, 1985]

La meta es maximizar la interacción entre aminoácidos H en lamalla, i.e., minimizar:

E(c) =∑

si ,sj∈S

e(si , sj) , donde

e(si , sj) =

−1 si si y sj son ambos del tipo H

y forman un contacto topológico

0 de otro modo

Dos aminoácidos si , sj ∈ S forman un contacto topológico sison no consecutivos en S, pero adyacentes en la malla

Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Predicción de estructuras 19 de julio del 2012 44 / 76

Predicción de la estructura terciaria de proteínas Modelos Ab Initio

Modelos Ab InitioModelo HP (Hydrophobic-Polar) [Dill, 1985]

La conformación óptima para lasecuenciaHPHPPHHPHPPHPHHPPHPH delongitud L = 20Las esferas negras y blancasdenotan aminoácidos H y P,respectivamenteLa energía de esta estructura esE(c) = −9, dado que hay 9H-H contactos topológicos

- 7 -

- 3 -

- 6 -

- 2 -

- 1

-

- 9 -

- 4

-

- 8

-

- 5

-

Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Predicción de estructuras 19 de julio del 2012 45 / 76

Predicción de la estructura terciaria de proteínas Modelos Ab Initio

Modelos Ab Initio

Estructura generada aleatoriamente

Estructura óptima

Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Predicción de estructuras 19 de julio del 2012 46 / 76

Predicción de la estructura terciaria de proteínas Modelos Ab Initio

Modelos Ab InitioEspacio de búsqueda 2D

1 22

2

2

RLU

D

Codificación movimientos absolutos:las estructuras se codifican comosecuencias en {U,D,L,R}L−1

Por qué L− 1? la posición del primeraminoácido es fija

Por lo tanto, el tamaño del espacio de búsqueda es: 4L−1

Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Predicción de estructuras 19 de julio del 2012 47 / 76

Predicción de la estructura terciaria de proteínas Modelos Ab Initio

Modelos Ab InitioEspacio de búsqueda 2D

Asumamos que tenemos una computadora capaz de explorar1,000 soluciones por segundo

L Soluciones (4L−1) Tiempo

5 256 0.256 sec.

Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Predicción de estructuras 19 de julio del 2012 48 / 76

Predicción de la estructura terciaria de proteínas Modelos Ab Initio

Modelos Ab InitioEspacio de búsqueda 2D

Asumamos que tenemos una computadora capaz de explorar1,000 soluciones por segundo

L Soluciones (4L−1) Tiempo

5 256 0.256 sec.10 262,144 4.370 min.

Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Predicción de estructuras 19 de julio del 2012 48 / 76

Predicción de la estructura terciaria de proteínas Modelos Ab Initio

Modelos Ab InitioEspacio de búsqueda 2D

Asumamos que tenemos una computadora capaz de explorar1,000 soluciones por segundo

L Soluciones (4L−1) Tiempo

5 256 0.256 sec.10 262,144 4.370 min.20 274,877,906,944 8.720 años

Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Predicción de estructuras 19 de julio del 2012 48 / 76

Predicción de la estructura terciaria de proteínas Modelos Ab Initio

Modelos Ab InitioEspacio de búsqueda 2D

Asumamos que tenemos una computadora capaz de explorar1,000 soluciones por segundo

L Soluciones (4L−1) Tiempo

5 256 0.256 sec.10 262,144 4.370 min.20 274,877,906,944 8.720 años30 288,230,376,151,712,000 9,139,725 años

Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Predicción de estructuras 19 de julio del 2012 48 / 76

Predicción de la estructura terciaria de proteínas Modelos Ab Initio

Modelos Ab InitioEspacio de búsqueda 2D

L Soluciones (4L−1) Tiempo

5 256 0.256 sec.10 262,144 4.370 min.20 274,877,906,944 8.720 años30 288,230,376,151,712,000 9,139,725 años50 316,912,650,057,057,000,000,000,000,000 -

Se trabaja comúnmente con secuencias de proteínas de longitudentre 18 y 136....

Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Predicción de estructuras 19 de julio del 2012 48 / 76

Predicción de la estructura terciaria de proteínas Modelos Ab Initio

Modelos Ab InitioModelo HP (Hydrophobic-Polar) [Dill, 1985]

La alternativa es utilizar metaheurísticasAlgoritmos GenéticosBúsqueda TabuRecocido Simulado ...

Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Predicción de estructuras 19 de julio del 2012 49 / 76

Predicción de la estructura secundaria de ARN Introducción

Predicción de la estructura secundaria de ARN

El ARN es un portador de información genética y existe en tresformas: ARN mensajero (ARNm), ARN ribosomal (ARNr) y ARNde transferencia (ARNt)

A diferencia del ADN, el ARN se integra de una sola hebra,aunque una molécula de ARN puede auto-hibridarse en ciertasregiones para formar estructuras de doble hebra

El ARNm es más o menos lineal y no estructurado, mientras queel ARNr y el ARNt sólo pueden funcionar formando estructurassecundarias y terciarias particulares

Es por ello que el conocimiento de las estructuras de dichasmoléculas es particularmente importante

Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Predicción de estructuras 19 de julio del 2012 50 / 76

Predicción de la estructura secundaria de ARN Tipos de estructuras de ARN

Tipos de estructuras de ARN

Las estructuras de ARN pueden ser descritas en tres niveles:primario, secundario y terciario

La estructura primaria es la secuencia lineal de ARN integrada porcuatro bases: adenina (A), citosina (C), guanina (G) y uracilo (U)

La estructura secundaria se refiere a la representación planar quecontiene regiones de bases apareadas entre regiones de una solahebra

La estructura terciaria es el arreglo tridimensional de bases deuna molécula de ARN

Dado a que la estructura terciaria de una molécula de ARN esdifícil de predecir, se ha prestado particular atención a lapredicción de la estructura secundaria

Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Predicción de estructuras 19 de julio del 2012 51 / 76

Predicción de la estructura secundaria de ARN Tipos de estructuras de ARN

Tipos de estructuras de ARN

Figura: Estructuras primaria, secundaria y terciaria de una molécula de ARNt

Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Predicción de estructuras 19 de julio del 2012 52 / 76

Predicción de la estructura secundaria de ARN Tipos de estructuras de ARN

Tipos de estructuras de ARN

Se pueden identificar cuatro subtipos de estructura secundaria:hairpin loop, bulge loop, interior loop y multibranch loop

Adicionalmente, el apareamiento de bases entre lazos dediferentes elementos de la estructura secundaria puede resultaren estructuras de más alto nivel como pseudoknot loop, kissinghairpin y hairpin-bulge

Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Predicción de estructuras 19 de julio del 2012 53 / 76

Predicción de la estructura secundaria de ARN Tipos de estructuras de ARN

Tipos de estructuras de ARN

Figura: Cuatro tipos básicos de lazos de ARN: hairpin loop, bulge loop,interior loop y multibranch loop

Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Predicción de estructuras 19 de julio del 2012 54 / 76

Predicción de la estructura secundaria de ARN Tipos de estructuras de ARN

Tipos de estructuras de ARN

Figura: Contactos pseudoknot, kissing hairpin y hairpin-bulge

Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Predicción de estructuras 19 de julio del 2012 55 / 76

Predicción de la estructura secundaria de ARN Métodos de predicción

Predicción de la estructura secundaria de ARN

Esencialmente, existen dos enfoques de predicción de laestructura secundaria del ARN: el enfoque ab initio y el enfoquecomparativo

El enfoque ab initio se basa en el cálculo de la mínima energíaliberada de la estructura estable derivada de una secuencia deARN

El enfoque comparativo infiere estructuras en base a lacomparación evolutiva de múltiples secuencias de ARNrelacionadas

Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Predicción de estructuras 19 de julio del 2012 56 / 76

Predicción de la estructura secundaria de ARN Métodos de predicción

Enfoque ab initio

Este enfoque realiza predicciones estructurales basadas en unasola secuencia de ARN

Generalmente, cuando se efectúa un apareamiento entre bases,la energía de la molécula disminuye debido a las interacciones deatracción entre las dos hebras

La energía necesaria para formar pares de bases individuales esinfluenciada por los pares de bases adyacentes a través defuerzas de apilamiento (cooperatividad en la formación dehélices)

Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Predicción de estructuras 19 de julio del 2012 57 / 76

Predicción de la estructura secundaria de ARN Métodos de predicción

Enfoque ab initio

Se han determinado parámetros para calcular la cooperatividaden la formación de pares de bases para la predicción de laestructura secundaria

Las interacciones de atracción conducen a un estado de aúnmenor energía

Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Predicción de estructuras 19 de julio del 2012 58 / 76

Predicción de la estructura secundaria de ARN Métodos de predicción

Enfoque ab initio

Sin embargo, si el par de bases es adyacente a lazos (loops) osalientes (bulges), los lazos y salientes vecinas tienden adesestabilizar la formación del par de bases

La fuerza desestabilizadora en una estructura helicoidal tambiéndepende del tipo de lazos cercanos

Pueden utilizarse los parámetros para calcular las diferentesenergías desestabilizadoras como penalizaciones en el cálculo delas estructuras secundarias

Los esquemas de puntaje de las interacciones de estabilización ydesestabilización representan la base del enfoque de predicciónab initio

Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Predicción de estructuras 19 de julio del 2012 59 / 76

Predicción de la estructura secundaria de ARN Métodos de predicción

Enfoque ab initio

El método ab initio funciona de la siguiente manera:Primero busca todos los posibles patrones de apareamiento debases de una secuencia

Calcula la energía total de una estructura secundaria potencialtomando en cuenta las fuerzas estabilizadoras y desestabilizadoras

Si hay múltiples alternativas de estructuras secundarias, el métododetermina la conformación con la menor energía

Existen varias técnicas para encontrar todas las posibles regionesde bases apareadas a partir de una secuencia de ácidosnucleicos: la matriz de puntos y la programación dinámica

Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Predicción de estructuras 19 de julio del 2012 60 / 76

Predicción de la estructura secundaria de ARN Métodos de predicción

Enfoque ab initio

Una matriz de puntos puede encontrar todos los posiblespatrones de apareamiento de bases comparando la secuenciaconsigo misma

Las diagonales perpendiculares a la diagonal principalrepresentan regiones que pueden auto-hibridarse para formarestructuras de doble hebra

Sin embargo, la detección de patrones es a menudo oscurecidapor altos niveles de ruido

Una manera de reducir el ruido es seleccionando una ventana detamaño apropiado

Si la matriz revela más de una estructura factible, se elige la demenor energía

Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Predicción de estructuras 19 de julio del 2012 61 / 76

Predicción de la estructura secundaria de ARN Métodos de predicción

Enfoque ab initio

Figura: Ejemplo de una matriz de puntos usada para la predicción de laestructura secundaria de una secuencia de ARN

Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Predicción de estructuras 19 de julio del 2012 62 / 76

Predicción de la estructura secundaria de ARN Métodos de predicción

Enfoque ab initio

Si una molécula grande contiene múltiples segmentos deestructura secundaria, elegir la combinación más estable puedeser una tarea abrumadora

Por ello puede utilizarse un enfoque cuantitativo como laprogramación dinámica

Al igual que en la matriz de puntos, la secuencia de ARN escomparada consigo misma

Se utiliza un esquema de puntaje para llenar la matriz conpuntajes de correspondencia

Después de tomar en cuenta toda la información de la secuencia,se determina el camino con el puntaje máximo dentro de la matrizde puntajes

Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Predicción de estructuras 19 de julio del 2012 63 / 76

Predicción de la estructura secundaria de ARN Métodos de predicción

Enfoque ab initio

El método de programación dinámica produce una estructura conun único mejor puntaje

Sin embargo, lo anterior representa una desventaja potencial yaque en realidad una molécula de RNA puede existir en múltiplesformas alternativas con energías cercanas a la mínima y nonecesariamente con el máximo número de pares de bases

Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Predicción de estructuras 19 de julio del 2012 64 / 76

Predicción de la estructura secundaria de ARN Métodos de predicción

Enfoque ab initio

La desventaja de la programación dinámica puede ser superadaadicionando una función de distribución de probabilidad, conocidacomo función de partición

La función de partición calcula la distribución matemática depares de bases probables en equilibrio termodinámico

Gracias a esta función es posible seleccionar un número deestructuras subóptimas dentro de un rango de energíadeterminado

Mfold y RNAfold son dos ejemplos populares de aplicaciones queutilizan el enfoque de predicción ab initio

Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Predicción de estructuras 19 de julio del 2012 65 / 76

Predicción de la estructura secundaria de ARN Métodos de predicción

Enfoque ab initio

Mfold(http://www.bioinfo.rpi.edu/applications/mfold/)es una aplicación web para la predicción de estructurassecundarias de ARN

Combina programación dinámica con cálculos termodinámicospara identificar la estructura secundaria más estable con la menorenergía

También produce matrices de puntos junto con términos deenergía

Este método es confiable para secuencias cortas, pero suprecisión decrece conforme crece la longitud de la secuencia

Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Predicción de estructuras 19 de julio del 2012 66 / 76

Predicción de la estructura secundaria de ARN Métodos de predicción

Enfoque ab initio

RNAfold(http://rna.tbi.univie.ac.at/cgi-bin/RNAfold.cgi)es otra aplicación web y forma parte del paquete Vienna

RNAfold extiende el alineamiento de secuencia a la vecindad delas diagonales óptimas para calcular la estabilidad de estructurasalternativas

Incorpora una función de partición para seleccionar el número deestructuras secundarias estadísticamente más probables

En base a cálculos termodinámicos y a la función de partición, seprovee un conjunto de estructuras subóptimas

Debido al gran número de estructuras secundarias computadas,se utiliza una regla de energía simplificada

Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Predicción de estructuras 19 de julio del 2012 67 / 76

Predicción de la estructura secundaria de ARN Métodos de predicción

Enfoque comparativo

El enfoque comparativo utiliza múltiples secuenciasevolutivamente relacionadas para inferir una estructura consenso

Para distinguir la estructura secundaria conservada entre lassecuencias múltiples de RNA se utiliza el concepto de covariación

Para conservar la estructura secundaria cuando secuenciashomólogas evolucionan, una mutación en una posiciónresponsable de un apareamiento se compensa con la mutaciónen la posición de apareamiento correspondiente

Basados en esta regla, pueden escribirse algoritmos que busquenpatrones de covariación en un conjunto de secuencias homólogasapropiadamente alineadas

Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Predicción de estructuras 19 de julio del 2012 68 / 76

Predicción de la estructura secundaria de ARN Métodos de predicción

Enfoque comparativo

Figura: Ejemplo de covariacion de residuos entre tres secuencias homólogasde ARN

Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Predicción de estructuras 19 de julio del 2012 69 / 76

Predicción de la estructura secundaria de ARN Métodos de predicción

Enfoque comparativo

Otro aspecto del método comparativo es la selección de unaestructura común a través de un consenso

Al comparar todas las estructuras predichas de un grupo desecuencias de ARN alineadas es posible adoptar la estructuraconsenso

Los algoritmos que siguen el enfoque comparativo puedendividirse en dos categorías, dependiendo del tipo de entrada:aquellos que requieren un alineamiento predefinido y aquellosque no lo necesitan

Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Predicción de estructuras 19 de julio del 2012 70 / 76

Predicción de la estructura secundaria de ARN Métodos de predicción

Enfoque comparativo

Los algoritmos que usan prealineamiento requieren que el usuarioprovea un alineamiento múltiple de secuencias como entrada

Estos programas computan los patrones de mutación como lacovariacion, y derivan una estructura consenso, común a todaslas secuencias

Este tipo de algoritmos son relativamente exitosos parasecuencias razonablemente conservadas

El requerimiento para usarlos es un conjunto apropiado desecuencias homólogas suficientemente similares y divergentes

También dependen de la calidad de la entrada

La selección de una única estructura consenso representa unadesventaja

Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Predicción de estructuras 19 de julio del 2012 71 / 76

Predicción de la estructura secundaria de ARN Métodos de predicción

Enfoque comparativo

RNAalifold(http://rna.tbi.univie.ac.at/cgi-bin/alifold.cgi)es un programa que forma parte del paquete Vienna

Utiliza un alineamiento múltiple de secuencias como entrada yanaliza los patrones de covariación en las secuencias

Luego crea una matriz de puntajes que es utilizada para aplicarprogramación dinámica con el objetivo de seleccionar laestructura con la mínima energía

Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Predicción de estructuras 19 de julio del 2012 72 / 76

Predicción de la estructura secundaria de ARN Métodos de predicción

Enfoque comparativo

Los algoritmos que no utilizan prealineamiento alineansimultáneamente un conjunto de secuencias e infieren unaestructura consenso

El alineamiento es realizado utilizando programación dinámicacon un esquema de puntaje que incorpora la similaridad de lassecuencias así como términos de energía

Debido al costo computacional de la programación dinámica, losprogramas que se encuentran actualmente disponibles limitan laentrada a dos secuencias

Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Predicción de estructuras 19 de julio del 2012 73 / 76

Predicción de la estructura secundaria de ARN Métodos de predicción

Enfoque comparativo

Foldalign(http://foldalign.kvl.dk/server/index.html) es unaaplicación web para el alineamiento y la predicción de estructurassecundarias

El usuario provee un par de secuencias no alineadas y utiliza unacombinación de Clustal y programación dinámica con esquemasde puntaje que incluyen información de covariación para construirel alineamiento

La estructura secundaria conservada en ambas secuencias esposteriormente calculada

Para reducir el costo computacional, el programa ignora losmultibranch loops

Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Predicción de estructuras 19 de julio del 2012 74 / 76

Predicción de la estructura secundaria de ARN Métodos de predicción

Enfoque comparativo

Dynalign (http://rna.urmc.rochester.edu/) es unprograma UNIX libre

El programa calcula las posibles estructuras secundariasutilizando un método similar a Mfold

Comparando estructuras alternativas para cada secuencia, laestructura común a ambas secuencias con menor energía eselegida

No requiere que las secuencias sean similares por lo que puedemanejar secuencias altamente divergentes

Sin embargo, solo sirve para predecir secuencias pequeñas deARN con una precisión razonable, como secuencias de ARNt

Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Predicción de estructuras 19 de julio del 2012 75 / 76

Predicción de la estructura secundaria de ARN Métodos de predicción

Dill, K. (1985).Theory for the Folding and Stability of Globular Proteins.Biochemistry, 24(6):1501–9.

Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Predicción de estructuras 19 de julio del 2012 76 / 76