Upload
others
View
4
Download
0
Embed Size (px)
Citation preview
CLADÍSTICA
Método de análisis para reconstruir filogenias a través de la inferencia de relaciones sobre la base de caracteres derivados (evolucionados) compartidos
¿cómo se construye un cladograma?
1. Análisis de caracteres
2. Selección de topología óptimasen la reconstrucción filogenética
Parsimonia
Máxima verosimilitud
Métodos Bayesianos
Métodosalternativos
CLADÍSTICA
• Principio general para la elección de hipótesis que compiten entre sí para explicar los datos de la forma más simple.
• No es un enunciado sobre evolución
• Se aplica tanto para caracteres morfológicos como moleculares:dadas las secuencias, encontrar el árbol que las explique con el menor número
de cambios
• sinapomorfía: cuanto más caracteres Puedan ser interpretados como sinapomorfías, mayor. Será el soporte a justificación de la monofilia de un grupo
Simplicidad ( parsimonia)
H1 H2 H37 pasos 9 pasos 8 pasos
Simplicidad ( parsimonia)
D
C
E G
F
B
A
J
I
KH D
C
E
B
G H
F
J
I
K
A
D
C
B
E G
F
H
A
J
I
K
Grupo monofilético(se reconocen porsinapomorfías)
Grupo parafilético(compartensimplesiomorfías)
Grupo polifilético(similitud debida a homoplasia)
Dentro del paradigma de la taxonomía evolutiva eran muy populares
1º Los estados de carácter se organizan en una serie de transformación que sepolariza
2º Se reconocen las sinapormorfías que se utilizan para construir el cladograma
Análisis en dos pasos o restringido
DESARROLLO HISTÓRICO: ARGUMENTACIÓN HENNIGIANA
CLADISTICA 4
Primeras aproximaciones cuantitativas para la evaluación de los árboles a través de la optimización de caracteres de modo tal que la cantidad de cambios sean mínimos
Algoritmos computarizadosFarris, J.S. (1970) Methods for computing Wagner treesFarris, J.S. et al. (1970) A numerical approach to Phylogenetic SystematicsFitch, W.M. (1971) Towards defining the course of evolution: minimum change for a specific tree topology.
¿cómo se construye un cladograma?
Argumentación a posteriori de los caracteres
- Taxones terminales: los miembros del in-group y out-group- Se analizan juntos en una matriz- Se obtiene un árbol sin raíz (network)- Se enraíza el árbol resultante y en ese momento se determina la polaridad
(la raíz determina la topología del árbol)
Análisis simultaneo y no restringido
¿cómo se construye un cladograma?
A CB D
Raíz
Árboles enraizados
A CB D
Raíz
D
A C
B
Árbol no enraizado
D
A C
B
Raíz
D
A C
B
Raíz
Estos árboles muestran cinco relaciones filogenéticas distintas entre los taxones(y todos derivan del mismos árbol no enraizado)
La raíz determina la topología del árbol.
Árbol enraizado 3
A
3
C
B
D
Árbol enraizado 4
A
4
C
B
D
Árbol enraizado 5
A
5 C
B
D
Árbol enraizado 2
A
2C
B
D
Árbol enraizado 1
A1
C
B
D
A C
B D
4
3
5
2
1
Dado un conjunto de observaciones se debe evaluar la topología que represente de forma más simple (= más parsimoniosa) las relaciones entre los taxones Independientemente del enraizamiento
1. Se obtiene un árbol sin raíz (network)
La polaridad se establece a posteriori del enraizamiento
2. Se enraíza el árbol resultante y luego se determina la polaridad.
A
B
C
D
E
A CB DE
Necesidad de algoritmos matemáticos computarizados
Para n taxa el número de árboles enraizados es:
( )( )1
2 3 !2 1 !n
nn−
−−
Taxa (n) Enraizados Sin raíz
2 1 13 3 14 15 35 105 15
6 954 1057 10.395 9548 135.135 10.3959 2.027.025 135.13510 34.459.425 2.027.025
Árbol de lavida
Hillis, Zwickl, & Gutell (2003)
Usted estaaquí
Cualquiera sea la naturaleza de los datos (morfológicos, moleculares)Se debe elegir algún modelo de cambio entre estados para elegir entre hipótesis(topologías) alternativas.
- Se debe especificar las suposiciones de cambio entre estados de un modelos- Se aplica ese modelo para estimar la mejor topología que explique la distribución
de los caracteres entre las unidades de estudio.Es decir: se propone la mejor topología bajo ese modelo
• Parsimonia
Método que selecciona el árbol que requieraLa menor cantidad de pasos (= sustituciones)
Elige el árbol que requiera la menor cantidad posible de sustituciones para explicar losdatos
Los algoritmos de parsimonia son rápidos
Búsqueda de árboles
Se debe seleccionar un criterio para comparar los árboles(= criterio de optimalidad)
• MODELOS DE PARSIMONIA O SIMPLICIDAD
Valoran los cambios entre estados en unidades de “pasos” o eventos evolutivos
• Wagner• Fitch
• MODELOS DE PARSIMONIA
Se contabilizan el número de cambios entre diferentes estados de caracteres que son necesarios para explicar los datos observados dado un determinado árbol.
La hipótesis seleccionada es la que requiere menor cantidad de cambios. Esta “cantidad de cambio” generalmente de refiere como longitud del árbol.
Los cambios pueden estar restringidos en cuanto al “tipo” de transformación quese adopta (e.g. ordenados vs desordenados)
0 1 2 2 1 0 0 1 2
Parsimonia de Wagner o de Farris
Las posibilidades de cambios en ambos sentidos son iguales y se sumaun paso por cada cambio
• MODELOS DE PARSIMONIA
Se contabilizan el número de cambios entre diferentes estados de caracteres que son necesarios para explicar los datos observados dado un determinado árbol.
0 1 2 0 2 10 1 2
Parsimonia de Fitch
Cada paso puede derivar de otro en cualquier orden. Todas las transformacionestienen un costo = 1
1 2 0
2 0 1
1 0 2
2 1 0 1 2 0
1 0 2
• Caracteres pueden diferir en su costo (contribución a la longitud del árbol) dependiendo del tipo de cambio asignado
• Wagner (ordenado, aditivo)0 1 2 (morfología, distinto costo)
• Fitch (desordenado, no-aditivo)A G (morphology, molecules)
T C (igual costo para todos los cambios)
Un paso
Dos pasos
• MODELOS DE PARSIMONIA
Se contabilizan el número de cambios entre diferentes estados de caracteres que son necesarios para explicar los datos observados dado un determinado árbol.
Parsimonia de Dollo
Bajo el modelo de parsimonia de Dollo cada estado de carácter puede ganarse solo 1 vez. Si la distribución del carácter no concuerda, entonces debe expresarsecomo reversión. Se ha propuesto este modelo para trabajar con sitios de restricción (donde la probabilidad de pérdida es mucho más alta que la de ganancia)
• MODELOS DE PARSIMONIA
Se contabilizan el número de cambios entre diferentes estados de caracteres que son necesarios para explicar los datos observados dado un determinado árbol.
Parsimonia de Camin-Sokal
Restringe las transformaciones de los caracteres de forma tal que una vez que un estado se adquiere no puede ser perdido , por la tanto las homoplasias debenexpresarse como adquisiciones múltiples
Todos estos procedimientos de optimización pueden tomarse como casos especiales de un modelo de optimización generalizada, bajo el cual se le puede asignar un “costo” a cada transformación. Tanto en el caso de Wagner o de Fitch, los costosson simétricos (i.e el costo del cambio de 0 –1 = costo de 1 –0)
En el caso de la opción Dollo, M es un valor arbitrario alto que se aplicaque garantiza que solo ocurran transformaciones simples sobre el cladograma
En el caso de la opción Camin-Sokal, el costo infinito de las reversionesimpiden que esos cambios no ocurran
Matrices de costos• Matrices de costos especifican los costos
de los cambios en un caracter
A C G TA 0 5 1 5C 5 0 5 1G 1 5 0 5T 5 1 5 0
a
desde
G
CT
PURINAS (Pu)
PIRIMIDINAS (Py)
transicionesPy Py Pu Pu
trans
vers
ione
sP
y
P
u A
Datos faltantes (?)
?Datos no observados
Datos no aplicables
• Los datos faltantes son ignorados durante la construcción del árbol pero pueden llevar a varias alternativas igualmente parsimoniosas en ausencia de homoplasias
• Una matriz can gran cantidad de datos faltantes puede llevar a la obtención de un elevado número de árboles más parsimoniosos (soluciones espurias)
• Se han propuesto distintas métricas para medir como influye el comportamientode los datos faltantes en la resolución de los clados
A
B C
1Se construye un árbol para3 taxones (= root tree)
Se adiciona un cuarto taxón (D) en cada una de las 3 posiciones posibles
2a
A
B DC
A
BD C
A
B CD
2b 2c
BÚSQUEDAS EXACTAS - - - búsqueda exhaustiva
A
B C
1Se comienza con tres taxonescualquiera
Se adiciona un cuarto taxón (D) en cada una de las 3 posiciones posibles
2a
A
B DC
A
BD C
A
B CD
2b 2cE
E
EE
E
BÚSQUEDAS EXACTAS - - - menos de 11 taxones
A
B C
B1
A
B DC
A
B C
D
B3
A1
A
B E
DC
C1.1
A
B D
ECC1.3
A
B D
CEC1.2
A
B
CC1.4
E D
A
B C
C1.5
ED
A
BD C
B2
BÚSQUEDAS EXACTAS - - - Branch & Bound
BÚSQUEDAS
Exactas
Heurísticas
Algoritmos exhaustivos
Branch and Bound
Algoritmos de permutación de ramas( “Branch swapping”)
Dependiendo del número de taxones
- Construcción de un árbol no enraizado (network), por ejemplo mediante elalgoritmo de Wagner (Kluge & Farris, 1969, Farris, 1970)
Búsquedas heurísticas
- Permutación de ramas (“branch swapping”)
-Se cuenta la longitud de los árboles permutados y se retienen en memorialos árboles más cortos
-Se repite el procedimiento hasta que no se encuentran árboles más cortos
Construcción de una matriz de Manhattan de distancias absolutas
Selección y conexión de los taxones más próximos
perca celacantox
Se busca el taxon más próximo y se lo inserta en el intervalo
1 2 3 4 5 6perca 0 0 0 0 0 0
celacanto 1 1 0 0 0 0salamandra 1 0 1 0 0 1
rana 1 0 1 1 0 1
salamandra
perca celacantox
perca celacanto salamandra ranaperca 2 5 5celacanto 3 3salamandra 0rana
Se calcula el valor para X como el valor de la mediana entre los tresTaxones (o nodos) más próximos
salamandra
perca celacantox
1 2 3 4 5 6perca 0 0 0 0 0 0
celacanto 1 1 0 0 0 0salamandra 1 0 1 0 0 1
rana 1 0 1 1 0 1
100000
1 2 3 4 5 6perca 0 0 0 0 0 0celacanto 1 1 0 0 0 0salamandra 1 0 1 0 0 1x 1 0 0 0 0 0
Se busca la distancia patrística menor entre todas las adiciones posiblesde todos los taxones y cada uno de los tres intervalos
perca celacantox
salamadra
1
2
3
Se une el taxón que este mas próximo de modo tal que produzca el incremento menor en la longitud
perca celacantox
salamadra
rana
100000
D (rana-in1) = [D (rana-perca)+ D (rana-X)- D perca- X)]/2
Se busca la distancia patrística menor entre todas las adiciones posiblesde todos los taxones y cada uno de los tres intervalos
perca celacantox
salamadra
1
2
3
Se une el taxón que este mas próximo de modo tal que produzca el incremento menor en la longitud
perca celacantox
salamadra
rana
Se busca la distancia patrística menor entre todas las adiciones posiblesde todos los taxones y cada uno de los tres intervalos
perca celacantox
salamadra
1
2
3
Se une el taxón que este mas próximo de modo tal que produzca el incremento menor en la longitud
perca celacantox
salamadra
ranay101001
100000
Árbol de Wagner es un punto de partida para aplicar otras técnicas para aplicaralgoritmos de permutación de ramas
Distintas alternativas para construir el Árbol de Wagner:
SECUENCIAS DE ADICIÓN de taxones
- Los taxones pueden incorporarse en el orden en que están en la matriz- al azar- de acuerdo con la distancia con respecto al grupo externo (= outgroup) como en el ejemplo anterior
MULTIPLES SECUENCIAS DE ADICIÓN AL AZAR (RAS)
Algoritmos de PERMUTACIÓN DE RAMAS
Subtree Pruning and Regrafting (SPR)
Tree Bisection and Reconnection (TBR)
Nearest Neighbour Interchange (NNI)
BÚSQUEDAS HEURÍSTICAS - - - Permutación de ramas
Nearest neighbour interchange (NNI)A
B
C D E
F
G
A
B
D C E
F
G
A
B
C D
E
F
G
Subtree pruning and regrafting (SPR)
A
B
C D E
F
GC D E
F
G
C
D
G
B
A
E F
BÚSQUEDAS HEURÍSTICAS - - - Permutación de ramas
Se separa en un subcladogramaenraizado y se lo conecta en otra partedel árbol
BÚSQUEDAS HEURÍSTICAS - - - Permutación de ramas
Tree bisection and reconnection (TBR)A
B
C D E
F
G
A
B
C D
E
F
G
A
C
F
D
E
B G
El cladograma se divide en subcladogramassin raíz que luego se re-conectan
Búsquedas heurísticas. Permutación de ramas
Àrbol inicia T1 (e.g. Wagner) Longitud = L1
Permutaciòn de ramas.
Guardar T2
Nuevo árbol T2
Longitud L2Borrar T2
Reemplazar T1 por T2
BÚSQUEDAS HEURÍSTICAS
Problema de las islas de árboles
Islas: conjunto de árboles que están separados por una solo permutación de ramas
Problema: una vez que se encontró el árbol más corto dentro de una isla (por re-ordenamiento de sus ramas) no se podrá llegar a las topologías que estén en otraisla
Solución: partir de varios árboles de Wagner generados por secuencias de adición al azar
BUSQUEDAS HEURÍSTICAS
MATRICES DE MÁS DE 100 TAXONES
Nuevas técnicas (TNT)