View
10
Download
0
Category
Preview:
Citation preview
Paulino Gomez-Puertas Bioinformática. 2012
Modelado 3D.
“Introducción”
http://www.cbm.uam.es/bioweb
Paulino Gómez Puertas.
Centro de Biología Molecular "Severo Ochoa"
CSIC-UAM, Madrid
Centro de Investigacion y Tecnologia
Agroalimentaria. CITA - DGA.
Paulino Gomez-Puertas Bioinformática. 2012
Predicción de estructura de proteínas.
Paulino Gomez-Puertas Bioinformática. 2012
Protein structure prediction. Flow chart.
Paulino Gomez-Puertas Bioinformática. 2012
Predicción de estructura de proteínas:
Características 1D.
Paulino Gomez-Puertas Bioinformática. 2012
Paulino Gomez-Puertas Bioinformática. 2012
1 ASKGEELFTGVVPILVELDGDVNGHKFSVSGEGEGDATYGKLTLKFICTT TTGGGGSSEEEEEEEEEEEETTEEEEEEEEEEEETTTTEEEEEEEETT
51 GKLPVPWPTLVTTFSYGVQCFSRYPDHMKRHDFFKSAMPEGYVQERTIFF
SS SS GGGGHHHHSSS GGG B GGGGGG HHHHTTTT EEEEEEEEE
101 KDDGNYKTRAEVKFEGDTLVNRIELKGIDFKEDGNILGHKLEYNYNSHNV
TTS EEEEEEEEEEETTEEEEEEEEEEE TTSTTTTT B S EEE
151 YIMADKQKNGIKVNFKIRHNIEDGSVQLADHYQQNTPIGDGPVLLPDNHY
EEEEEGGGTEEEEEEEEEEEETTS EEEEEEEEEEEESSSS SEE
201 LSTQSALSKDPNEKRDHMVLLEFVTAAGIT HGMDELYK
EEEEEEEE TT SSEEEEEEEEEEES
Notación de estructura secundaria
T=hydrogen bond turn, H=helix, G=310 helix, I=phi helix, B=residue in isolated beta bridge, E=strand, and S=bend Kabsch and Sander (1983) Biopolymers 22, 2577-2637
Paulino Gomez-Puertas Bioinformática. 2012
Métodos de 1a Generación :
Estos son métodos estadísticos basados en la tendencia que presentan los aminoácidos a adoptar estructuras
secundarias.
El primero, propuesto por Chou y Fasman en 1974 empleaba estadísticas extrapoladas de las 15 estructuras de
proteínas determinadas por rayos-X.
Tendencias que se basaban en las propiedades estereoquímicas y fisicoquímicas de los diferentes residuos (casos
especiales son glicina y prolina). Este método se ha mejorado aumentando el número de proteínas empleadas.
El método presenta una fiabilidad de ~50% (cuando se emplean 62 proteínas para obtener las estadísticas).
Métodos de 2a Generación :
La principal mejora de esta 2a generación de métodos es la combinación de bases de datos mayores de estructura de
proteínas y el uso de estadísticas basadas en segmentos: típicamente 11-21 residuos adyacentes y las estadísticas se
compilan para evaluar la propensión del residuo central de ese segmento a estar en una determinada estructura secundaria.
Los algoritmos principalmente empleados estabann basados en información estadística, propiedades fisicoquímicas, perfiles
de secuencia, redes de multicapas, teoría de grafos, estadísticas multivariable, reglas expertas, “nearest-neighbour”.
Métodos de 3a Generación :
La incorporación de la información evolutiva permite una mejora de estas predicciones. Los perfiles de intercambio de
residuos extraídos de los alineamientos de una familia son indicativos de detalles estructurales específicos. Además estos
perfiles implícitamente contienen información no local, ya que la selección evolutiva de proteínas se hace a nivel de estructura
3D y no a nivel de secuencia.
Los perfiles extendidos conseguidos a través de PsiBlast y Hidden-Markov-Models mejoran por tanto las predicciones.
Paulino Gomez-Puertas Bioinformática. 2012
Scheme for PHD Protein Prediction Methods Rost et al. (1997) J. Mol. Biol. 270: 471-480
Sequence information
from protein family
Profile divided from multiple aligment
for a window of adjacent residues
Two levels of neural network
systems: PHDsec and PHDhtm
One level of network
PHDacc
Paulino Gomez-Puertas Bioinformática. 2012
Método de 3 fases :
- perfiles de secuencia (matriz
de sustitución como input para
la red neuronal)
- 1a red neuronal
(15 x 21 input, 3 output: h,s,c)
- 2a red neuronal
(15 x 4 input, 3 output: h,s,c)
Q3 = 76.7 – 78.3%
Ventana óptima = 15 residuos
20+1 incluye la posible expansión de la
cadena; N-, C-
3+1 incluye la posibilidad de expansión
de N-
340.000 seqs.
non redundant
Databank
Query sequence PSI-blast
3 Int. PSI-blast hits
20aa
Se
q. L
en
g.
Position specific
scoring matrix
(log odds)
i
15 aa
scrolling
window
around
residue i
2nd neural network
3x15 input, 3 output
3 state prediction
for residue 1
1st neural network
15x20 input, 3 output
3 state
prediction
for residue
i+1 3 state prediction
for residue i+2
Predicción de Estructura Secundaria, PSI-Pred http://www.psipred.net
Paulino Gomez-Puertas Bioinformática. 2012
Ventajas y Problemas :
Ventajas:
• fiabilidad (predicciones 3-estados) > 70%
• fiabilidad para las betas ~ alfa ~ “loops”
Problemas:
• malos alineamientos llevan a malas predicciones
• confusión de alfas y betas se da en regiones en que se establecen interacciones a largo rango
• precaución al evaluar los resultados para proteínas con características inusuales
Servidores disponibles:
• PHDsec red neuronal que emplea alineamientos múltiples de secuencias. Fiabilidad ~70%.
• Jpred2 dos redes neuronales e información evolutiva (PsiBlast). Versión 2 combina los resultados de 4 redes (JNet, NSSP,
Predator, PHD)
• PSIpred usa perfiles de PsiBlast (filtrando los resultados) y redes neuronales (combina los resultados de varios métodos de
predicción de estructura secundaria). Acierto >76%.
• SAM-T08 Una red neuronal y perfiles de alineamientos múltiples mejorados mediante el empleo de "Hidden Markov".
Paulino Gomez-Puertas Bioinformática. 2012
Predicción de Estructura Secundaria
Accesibilidad al Solvente Predicción de Proteínas Transmembrana
Modificaciones Post-transcripcionales
http://www.expasy.ch/tools/ :
• SignalP predicción de péptidos señales
• ChloroP predicción de péptidos de cloroplastos
• MITOPROT predicción de secuencias diana de
mitocondria
• Predotar predicción de secuencias diana de
mitocondria y plástidos
• NetOGlyc predicción de sitios de O-glicosilación en
proteínas de mamíferos
• NDictyOGlyc predicción de sitos de GlcNAc O-
glicosilación en “Dictyostelium”
• .....
Paulino Gomez-Puertas Bioinformática. 2012
Predicción de estructura de proteínas. Reconocimiento de plegamiento
(threading).
Paulino Gomez-Puertas Bioinformática. 2012
Protein structure prediction. Flow chart.
Paulino Gomez-Puertas Bioinformática. 2012
protein structure evolution
Paulino Gomez-Puertas Bioinformática. 2012
Paulino Gomez-Puertas Bioinformática. 2012
Espacio Estructural
Espacio de Secuencias
Homology Modelling Targets
Fold Recognition Targets
Espacio de Secuencias vs. Espacio de Estructuras
El desarrollo de los métodos de reconocimiento de plegamiento
se deriva de la observación de que muchas secuencias
aparentemente no relacionadas tienen estructuras 3D muy
similares (folds / plegamientos).
Paulino Gomez-Puertas Bioinformática. 2012
Modelado por Homología vs Reconocimiento de Plegamiento
Threading Modelado por Homología
% seq. ID
0 30 100
Aplicación
Calidad del
Modelo
Cualquier Secuencia >= 30-50% similitud con el molde
Nivel de Plegamiento Nivel Atómico
Secuencia
diana
Paulino Gomez-Puertas Bioinformática. 2012
Superfolds (Orengo et al.)
Paulino Gomez-Puertas Bioinformática. 2012
Algoritmos de threading. General.
Secuencia
problema
Paulino Gomez-Puertas Bioinformática. 2012
Count pairs of each residue
type at different separations
Algoritmos de threading
Potenciales de contacto
Energy of interaction =
-KT ln (frequency of interactions)
Boltzmann principle
d
d
Jones, 1992; Sippl, 1995
Paulino Gomez-Puertas Bioinformática. 2012
Algoritmos de threading
Coincidencia de estructura secundaria y accesibilidad
Rost, 1995 http://cubic.bioc.columbia.edu/predictprotein
secondary structure prediction
Paulino Gomez-Puertas Bioinformática. 2012
ALGUNOS SERVIDORES DE THREADING
PHYRE: http://www.sbg.bio.ic.ac.uk/~phyre/
Paulino Gomez-Puertas Bioinformática. 2012
ALGUNOS SERVIDORES DE THREADING
FUGUE: http://tardis.nibio.go.jp/fugue/prfsearch.html
Paulino Gomez-Puertas Bioinformática. 2012
ALGUNOS SERVIDORES DE THREADING
PSIPRED: http://bioinf.cs.ucl.ac.uk/psipred/
Paulino Gomez-Puertas Bioinformática. 2012
http://predictioncenter.org/
Critical Assessment of protein Structure Prediction (CASP)
Paulino Gomez-Puertas Bioinformática. 2012
Cuestiones…
Recommended