Los agrupamientos obtenidos a partir de análisis filogenéticos basados en distintos sets o conjuntos de datos son con frecuencia incongruentes.
Comparaciones más frecuentes:
• Datos morfológicos versus datos de secuencias de ADN.
• Caracteres de adultos versus caracteres de larvas u otros estados inmaduros.
• Morfología externa versus anatomía.
• Caracteres vegetativos versus reproductivos.
Causas biológicas de incongruencia
1) Causas biológicas:
• Distintos conjuntos de caracteres tienen diferentes tasas evolutivas (evolución en mosaico)
• A veces hay hibridación o evolución reticulada.
• Se produce transferencia horizontal de genes (transposones o genes saltarines) que se transmiten entre especies generalmente por medio de endoparásitos.
Causas metodológicas de incongruencia
2) Causas metodológicas de incongruencia
• La aplicación de distintas estrategias de análisis de datos y métodos de filogenéticos puede dar lugar a distintos resultados para un mismo conjunto de datos (métodos de alineación de secuencias, de pesado de caracteres, de modelos moleculares ).
• Cuando el muestreo de datos es insuficiente los resultados obtenidos suelen ser incongruentes.
• Puede haber errores o distintos criterios para establecer homologías (a priori o posicionales) que determinan que los resultados sean incongruentes.
Existen dos estrategias u opciones fundamentales cuando se dispone de distintos sets de datos
• Análisis de consenso o congruencia taxonómica. Se analizan los sets de datos o particiones por
separado y ambos resultados se combinan en un árbol de consenso.
• Análisis simultáneo o de evidencia total. Los sets de datos se reúnen en una misma matriz de
datos y se analizan simultáneamente. • Una tercera opción es el análisis combinado
condicional: 1. análisis separado, 2. análisis de congruencia; 3. eventual combinación de los datos.
Congruencia taxonómica
• La evidencia (datos= caracteres) se divide en distintas particiones.
• De cada uno de ellas se obtiene uno o más árboles filogenéticos.
• Las distintas topologías se convienen en una sola mediante árboles de consenso.
• Ventajas: Se evita que los caracteres de una partición mayor (por ejemplo datos moleculares) enmascaren a los de otra partición.
• Desventajas: El resultado final no describe óptimamente los datos (el árbol de consenso es menos resuelto que los árboles combinados).
• En la actualidad los análisis simultáneos o combinados son los que más se utilizan.
• Se considera que ellos tienen mayor información y poder explicativo.
• Si bien los caracteres moleculares son mayoría con respecto a los morfológicos, representan unos pocos genes, en tanto que en la morfología se expresan numerosos genes.
Árboles de consenso y de compromiso
• Los árboles de consenso y compromiso permiten combinar la información contenida en cladogramas con distintas topologías, obtenidos a partir de un mismo conjunto o distintos conjuntos de datos.
• Hay varios métodos:
1) Árboles de consenso estricto
2) Árboles de compromiso: de mayoría, de componentes combinables, y otros.
Consenso estricto
A B C D E F G A B C E D F G
Árboles a combinar
A B C D E F G
Árbol de consenso estricto: solo los grupos monofiléticos presentes
en todos los árboles comparados aparecen en el consenso
Consenso de mayoría
A B C D E F G A B C E D F G A B C E F D G
A B C D E F G
En el consenso de mayoría el árbol incluye los grupos monofiléticos que aparecen en al menos el 50% de los árboles mas cortos.
Consenso de compromiso (componentes combinables)
A B C D E F G A B C E D F G
A B C E D F G
Frecuencia de los clados
A B C E F D G
100
66
66
66
66
El árbol de consenso incluye todos los componentes que no entran en conflicto en los árboles comparados.
• Los árboles de consenso y de compromiso se emplean también cuando como resultado de un análisis filogenético se obtienen varios árboles igualmente óptimos.
• El más utilizado es el consenso estricto (el más restrictivo).
• Los árboles de compromiso pueden presentar clados que no están presentes en algunos de los árboles comparados.
• Las politomías que aparecen en los consensos implican que existen distintas relaciones posibles para los taxones involucrados, algunas de los cuales no son justificadas por los datos.
Notación parentética
• Los cladogramas se pueden representar tanto como diagramas ramificados como mediante notación parentética. Los taxones comprendidos entre dos paréntesis forman parte del mismo clado.
• Los cladogramas parentéticos se pueden grabar en archivos que pueden ser leídos por los programas para análisis filogenéticos.
• De este modo se pueden comparar los cladogramas obtenidos con otros publicados previamente.
Medidas de soporte de grupos
Son medidas de la estabilidad de los grupos que se recuperan en los cladogramas. Algunas de las más utilizadas son:
• Bootstrap
• Jackknife
• Soporte de Bremer
Las dos primeras son técnicas basadas en “remuestreo”
Bootstrap • Remuestreo con reposición
• Obtención de matriz re-muestreada o pseudoréplica
• Por cada matriz re-muestreada se obtiene un árbol
• El grado de conflicto entre los árboles se mide mediante el consenso de mayoría
• El porcentaje de las veces que aparecen los grupos en todos los árboles comparados se toma como una medida de soporte
Los valores de bootstrap se indican como porcentajes sobre las ramas del árbol
Los grupos bien soportados varían entre 50% y 100%, a valores más altos mayor apoyo. Actualmente se analizan aproximadamente 1000 pseudoréplicas. Algunos clados del árbol más corto no aparecen en el árbol de bootstrap.
Pha.candidusPha.elegans
Pha.viridis
P.horridusP.picipes
P.stupidus
P.albosignatus
P.sulfureus
P.straboP.globicollis
P.bondari
P.cinerosus
P.humilis
P.ambiguus
P.anthribiformis
P.simmilis
P.ruiziP.auripes
P.viridisquamosus
S.pascoei
E.unicolor
E.oblongusE.globosus
E.birabeniE.fallax
At.sordidusAt.convexifrons
At.marginatus
At.taeniatulus
Ar.globoculusAr.planioculus
Ar.conirostrisAr.tessellatus
Pa.quatuordecimpunctatus
Pa.fluctuosusAs.cervinus
84
65
82
88
73
81
60
100
58
Jackknife
• Es similar al bootstrap pero aplica una técnica de remuestreo sin reposición.
• Se crean “n” matrices, eligiendo al azar una proporción (por ejemplo un tercio) de los caracteres de la matriz original. Los demás se excluyen.
• Las matrices remuestreadas se analizan y para los árboles obtenidos se obtiene un consenso de mayoría.
Soporte o índice de Bremer
• Estima cuántos pasos extras se necesitan para que un clado particular colapse.
• El índice de Bremer para un clado es la diferencia de pasos entre a) el árbol más corto en que el clado en cuestión no aparece y b) el árbol más corto.
• El valor mínimo de apoyo es 1. Solo los clados que aparecen en todos los árboles más cortos tendrán un valor mayor a 0. A mayores valores mayor soporte de los clados.
• Los valores del índice de Bremer son absolutos. No están escalados.
Strict consensus of 4 trees (0 taxa excluded)
Pha.candidusPha.elegans
Pha.viridis
P.horridusP.picipes
P.stupidus
P.femoratus
P.albosignatus
P.sulfureus
P.straboP.globicollis
P.bondari
P.cinerosus
P.humilis
P.ambiguus
P.anthribiformis
P.simmilis
P.ruiziP.auripes
P.viridisquamosus
S.pascoei
E.unicolor
E.oblongusE.globosus
E.birabeniE.fallax
At.sordidusAt.convexifrons
At.marginatus
At.taeniatulus
Ar.globoculusAr.planioculus
Ar.conirostrisAr.tessellatus
Pa.quatuordecimpunctatus
Pa.fluctuosusAs.cervinus
N.virescens
N.sulphuratusN.laticeps
N.minorN.peregrinus
N.leucolomaN.verecundus
N.purpureoviolaceus
N.chordinusN.tremolerasi
N.versatilis
N.navicularis
N.dissimulator
N.dissimilisN.xanthographus
N.condecoratus
N.cinereidorsum
N.cyphoidesN.argentinensis
N.angulithoraxN.sulphurifer
N.bruchiN.rivulosus
A.curtusA.longimanus
M.ocellatusM.micaceus
G.darwiniG.galapagoensis
9069
99
97
99
66
84
65
82
88
73
81
60
100
99
78
58
Cladograma de especies de gorgojos del complejo Pantomorus-Naupactus Se observan valores de bootstrap
Especies de gorgojos del complejo Pantomorus-Naupactus
Izquierda: cladograma datos morfológicos //Derecha: cladograma evidencia total. Debajo de las ramas se observan los valores de soporte de Bremer.
Cladogramas de gorgojos del género Aramigus.
Izquierda: cladograma con datos morfológicos. Derecha: cladograma datos moleculares.
Optimización de caracteres Tree 0, char. 0 (10 steps)
Pha_candidus
Pha_elegans
Pha_viridis
P_horridus
P_picipes
P_stupidus
P_femoratus
P_albosignatus
P_sulfureus
P_strabo
P_globicollis
P_bondari
P_cinerosus
P_humilis
P_ambiguus
P_anthribiformis
P_simmilis
P_ruizi
P_auripes
P_viridisquamosus
S_pascoei
E_unicolor
E_oblongus
E_globosus
E_birabeni
E_fallax
At_sordidus
At_convexifrons
At_marginatus
At_taeniatulus
Ar_globoculus
Ar_planioculus
Ar_conirostris
Ar_tessellatus
Pa_quatuordecimpunctatus
Pa_fluctuosus
As_cervinus
N_virescens
N_sulphuratus
N_laticeps
N_minor
N_peregrinus
N_leucoloma
N_verecundus
N_purpureoviolaceus
N_chordinus
N_tremolerasi
N_versatilis
N_navicularis
N_dissimulator
N_dissimilis
N_xanthographus
N_condecoratus
N_cinereidorsum
N_cyphoides
N_argentinensis
N_angulithorax
N_sulphurifer
N_bruchi
N_rivulosus
A_curtus
A_longimanus
M_ocellatus
M_micaceus
G_darwini
G_galapagoensis
T_vittatus
T_elegans
T_nodicollis
T_gibbicollisstate 0state 1state 2
state 3state 4state 5
state 6state 7
state 8state 9Ambiguous
Tamaño corporal en mm
¿Cuán buena es la señal filogenética de un árbol? Una forma de evaluar la señal filogenética es analizando las longitudes de los árboles óptimos (más cortos) y subóptimos (un paso más largos que el o los árboles óptimos). Si se obtienen muchos cladogramas subóptimos, significa que la señal filogenética es débil y que la topología del árbol óptimo es inestable (los caracteres son incongruentes, entran en conflicto). Si se obtienen pocos cladogramas subóptimos, la señal filogenética es robusta.
Longitud mínima del árbol obtenido de datos “reales”
Distribución de los árboles de longitudes mínimas obtenidos a partir de datos al azar
Confianza estadística de los árboles: Se analiza si el árbol de lóngitud mínima para un conjunto de datos real es significativamente diferente al que se puede esperar a partir de un conjunto de datos al azar (DCL= distribution cladogram length).
¿ Qué se debería preferir? ¿árboles con menos homoplasia (más cortos) o más decisivos, a pesar de que puedan ser un paso más largos?
• Goloboff (1991) acuña el término decisividad para referirse a las
razones para preferir un cladograma sobre otros, independientemente de la homoplasia.
• Por ejemplo, si a partir de un conjunto de datos moleculares se obtiene un solo cladograma, y a partir de una matriz de datos morfológicos se obtienen 10 cladogramas menos homoplásicos que los anteriores, se puede decir que la decisividad de los datos moleculares es mayor, a pesar de ser más homoplásicos.