Técnicas Automatizadas de Clasificación y Ordenación Automatizadas... · Web viewPara establecer la clasificación de los seres vivos hay diferentes métodos que permiten aproximaciones

Técnicas Automatizadas de Clasificación y Ordenación

Curso 2007/2008

Profesora: Isabel Mateu Andrés

Web: http://www.uv.es/cuaderno0708

http://www.uv.es/cuaderno0708

Programa

Sesión 1.- Introducción a la asignatura. La clasificación biológica. Lógica, fundamentos y objetivos. Proceso de clasificación. Escuelas taxonómicas actuales. Métodos de ordenación.

Sesiones 2 á 5.- Metodología fenética. Principios en que se basa. Etapas de trabajo. Tipos de caracteres y codificación. Obtención de dendrogramas. Interpretación de resultados.1.- Introducción a NTSYS. 2.- Medida de la semejanza: Algoritmos de semejanza. Algoritmos de agrupamiento.3.- Algoritmos de distancia. Transformación de datos cuantitativos.4.- Delimitación de grupos. Jerarquización y asignación de nombres.5.- Arboles de consenso. Evaluación de resultados.

Sesiones 6 á 8.- Metodología Cladística. Principios en que se basa. Etapas de trabajo. Tipos de caracteres y codificación.

1.- Introducción a Phylip.2.- Trabajo con diferentes tipos de datos: Morfológicos, secuencias, sitios de restricción, frecuencias genéticas.3.- Algoritmos adecuados a cada tipo de datos. Construcción de árboles.4.- Formación de grupos: Árboles de consenso y bootstraps.5.- Jerarquización y asignación de nombre.

Sesiones 9 á 10.- Métodos de ordenación.

1.- Análisis de componentes principales (PCA). 2.- Análisis factorial de correspondencias (AFC). 3.- Análisis de la Función Discriminante. 2.- Análisis de la Correlación Canónica.

Sesiones 11 á 12.- Presentación de trabajos.

Bibliografía

Cuadras, C. M. (1991). Métodos de Análisis Multivariante. Segunda edición. Promociones y Publicaciones Universitarias, S. A. Barcelona. 644 pp. Felsenstein, J. (1995) PHYLIP (Phylogeny Inference Package) Version 3.57c. University of Washington.<http://evolution.genetics.washington.edu/phylip.html>.

Forey, P. L., C. J. Humphries, I. L. Kitching, R. W. Scotland, D. J. Siebert & D. M. Williams -Edit.- (1992). Cladistics, a Practical Course in Systematics. The Systematics Association Publication nq. 10. Oxford Claredon Press. Oxford.

Johnson DE. (2000). Métodos multivariados aplicados al análisis de datos. International Thomson Editores.

Krzanowski, W. J. (1996) Principles of Multivariate Analysis. A User's Perspective. Oxford Science Publications. Clarendon Press, Oxford. 563 pp.

Lebart, L., A. Morineau & J.-P. Fénelon (1985). Tratamiento Estadístico de Datos. Métodos y Programas. Marcombo, S. A., Barcelona. 520 pp.

Legendre , P. & L. Legendre (1998). Numerical Ecology. 2nd English edition. Developments in Environmental Modelling, 20. Elsevier Science B. V. Amsterdam, The Netherlands. 853 pp.

Manly, B. F. (1994) Multivariate Statistical Methods. A Primer. 2nd. Edition. Chapman & Hall. London. 215 pp.

Mayr, E. & P. D. Ashlock (1991). Principles of Systematic Zoology. 2nd Edition. McGraw-Hill, Inc., Singapore. 475pp.

Quicke, D. L. J. (1993). Principles and Thecniques of Contemporary Taxonomy. Tertiary Level Biology. Blackie Acad. & Professional, Chapman & Hall,Glosgow. 311 pp.

Rohlf, F. J. (1998) NTSYS-pc. Numerical Taxonomy and Multivariate Analysis System. Version 2. User Guide. Exeter Software. Applied Biostatistics Inc. Setauket.

Sneath, P. H. A. & R. R. Sokal (1973) Numerical Taxonomy. The Principles and Practice of Numerical Classification. W. H. Freeman and Co. San Francisco. 573 pp.

Stuessy, T. F. (1990). Plant Taxonomy. The Systematic Evaluation of Comparative Data. Columbia University Press, New York. 514 pp.

Recursos en Internet:

General:http://entomologia.rediris.es/sea/bol/vol26/s1/articulo/http://mendel.uab.es/biocomputacio/treballs00-01/rodriguez-rotllant/taxonomia.htm

Cladística:http://www.gwu.edu/~clade/faculty/lipscomb/Cladistics.pdfhttp://taxonomy.zoology.gla.ac.uk/teaching/CompleatCladist.pdfhttp://www.science.uts.edu.au/sasb/WestonCrisp.htmlhttp://www.ucmp.berkeley.edu/clad/clad1.html

Ordenación:http://www.okstate.edu/artsci/botany/ordinate/http://life.bio.sunysb.edu/morph/

Programas relacionados con la materia:http://evolution.genetics.washington.edu/phylip.htmlhttp://www.cladistics.org/education.html

Introducción

“La sociedad tiene una necesidad creciente de información taxonómica fiable que permita conservar, manejar, entender y disfrutar del mundo natural” (Wheeler, Raven & Wilson, Science 303, 2004).

Clasificar: Ordenar o disponer por clases o categorías.

Sistemática: Estudio científico de la diversidad de organismos y de las relaciones que se establecen entre ellos.

Taxonomía: Estudio teórico de la clasificación, incluyendo sus bases, principios, procedimientos y reglas.

Identificación o determinación: Asignación de objetos no identificados en la clase correcta, una vez que se ha establecido una clasificación.

La clasificación esta presente en cualquier aspecto de la vida cotidiana. Cuando el número de objetos es elevado se impone la clasificación como una necesidad, ya que mediante ella podemos predecir lo que puede derivarse de un acto, comportamiento, circunstancia, etc.

En la clasificación de los seres vivos se persiguen dos objetivos:

1.- Delimitar grupos estableciendo los límites de su variabilidad.2.- Situarlos en el conjunto de los seres vivos expresando su parentesco.

Una vez delimitados los grupos, se les asigna un nombre científico, mediante el cual será posible su identificación inequívoca. Este sistema de nomenclatura proporciona un método adecuado de identificación y permite la comunicación científica de forma sencilla.

Las especies son las unidades fundamentales de análisis en biogeografía, ecología, macroevolución, conservación, etc así como en materias, aparentemente no relacionadas con la taxonomía, como fisiología, biología celular, genética o bioquímica. En cualquiera de ellas se trabaja con organismos que pertenecen a especies concretas, elegidas en función de los objetivos que se pretende alcanzar, por lo que se basan en lo previamente establecido en la taxonomía del grupo con que se trabaja.

La jerarquía taxonómicaLa clasificación de los seres vivos es jerárquica: Las especies se encuadran dentro de géneros, los géneros dentro de familias etc.

Una clasificación jerárquica funciona como un sistema de cajas rusas, en el que cada grupo se incluye dentro de otros de mayor rango, de forma que presenta unas características propias exclusivas, al tiempo que reúne las características de todos los grupos de mayor rango en los que se incluye. Este sistema permite establecer de una forma sencilla las relaciones de parentesco entre los distintos grupos. Todos los seres vivos deben, obligatoriamente, encuadrarse en las siguientes categorías:

Reino División (Phylum) Clase Orden Familia Género Especie

Dos individuos se incluyen en la misma clase porque comparten aquellos atributos que definen esa clase.

Los miembros de una clase son los grupos de rango inferior que dicha clase incluye: los miembros de la clase familia son géneros, los de géneros son especies. Sólo en el caso de la especie sus miembros son individuos.

El número de miembros de una clase no influye en su validez. Una clase puede estar formada por un solo miembro o por varios, solo en el caso de la especie, al ser individuos, los miembros han de ser varios o muchos, ya que no tendría sentido crear una especie para un solo individuo.

Existen categorías intermedias que pueden usarse para indicar diferentes afinidades dentro de las categorías anteriores. Ejemplos: Secciones y subsecciones de un género, subfamilias y tribus de una familia, subordenes de un orden, etc. No son de uso obligatorio.

Rango es el nivel en el que se sitúa un grupo dentro de la jerarquíaTaxon es un grupo sin especificación de rango.Caracteres diagnósticos son los que sirven para separar dos grupos.Caracteres sintéticos son aquellos comunes a grupos distintos y, por tanto, sirven para establecer grupos de mayor rango.

Normas para el uso y aplicación de las categorías taxonómicas:

La jerarquía taxonómica es inamovible. Fue establecida por Linneo, quién fijó las categorías y estableció el orden jerárquico entre ellas, de forma que al diferenciar grupos se puede apreciar cuales están mas próximos o alejados entre sí, deduciendo las relaciones de parentesco que los unen. Dicha jerarquía ha sido universalmente aceptada, dando estabilidad a la clasificación biológica, cosa que anteriormente no existía. Como consecuencia:

- No se pueden crear nuevas categorías.- Las categorías principales son de uso obligatorio: todos los organismos pertenecen a una especie

que se incluye en un género y éste en una familia, y así sucesivamente.- No se han de utilizar necesariamente todas las categorías intermedias y pueden usarse categorías

que están por debajo de otras que, en cambio no se usan en un caso concreto.- Las categorías intermedias sirven, sobre todo, para expresar esas relaciones de parentesco entre

grupos que pertenecen a un mismo grupo principal- Las categorías están establecidas, pero los criterios para definirlas no lo están, ni pueden estarlo,

por lo que pueden variar según los autores. Esto lleva a que lo que para unos autores es un género para otros es un familia, etc. Sin embargo este es un hecho normal en Biología, al que hay que habituarse y saber interpretar de forma adecuada: es secundario lo que se incluye en un grupo ya que puede variar a criterio de la persona que lo hace, pero es importante que la estructura se mantenga para entendernos.

- La separación de grupos, el cambio de rango, etc. no altera la clasificación.

Se dice que una categoría es natural cuando todos los grupos que la forman están relacionados. Siempre se pretende crear categorías naturales, pero conseguirlo o no depende de nuestro nivel de conocimiento de los seres vivos.

El proceso de la clasificación

La clasificación se basa en la comparación de los caracteres que manifiesta cada unidad objeto de dicha clasificación. Los caracteres, son atributos de un organismo que pueden ser descritos, medidos, pesados, contados, etc. Los caracteres, a su vez, pueden manifestar diferentes estados de carácter. Por ejemplo, un carácter es el color de los ojos, y cada uno de los colores (castaños, azules, grises, verdes) que se encuentran en nuestro grupo de trabajo, serían sus estados de carácter.

Para establecer una clasificación distinguimos dos fases:

1.- Agrupamiento: Su objeto es la formación de grupos. Requiere el estudio previo de los caracteres y su comparación. El método de trabajo con el que se realiza este último paso, difiere según el objetivo que se persigue en cada caso (fenéticos, cladísticos).

Para comparar las unidades de trabajo (UTO en fenética y UE en cladística), después de estudiados y medidos los caracteres, es necesario describirlos de algún modo, es decir, descomponer los caracteres en sus estados de carácter.

Selección Medida y Descripción ComparaciónOrganismos Caracteres Estados Táxonesindividuales de carácter

2.- Jerarquización de los grupos antes formados: Se trata de establecer las relaciones que existen entre dichos grupos mediante el establecimiento de la jerarquía, es decir la forma en que se subordinan unos a otros. Para ello, hay dos etapas: en la primera se seleccionan aquellos caracteres útiles para ese propósito y en la segunda se evalúa el nivel de parentesco entre los grupos a través de esos caracteres.

Los caracteres empleados en la jerarquización son aquellos comunes a distintos grupos. En función de los caracteres que comparten, se establecen los niveles de semejanza, que nos permitirán agrupar los táxones previamente establecidos a diferentes niveles.

Selección EvaluaciónTáxones Estados de carácter Categorías

Lógica de la clasificación

Independientemente de la naturaleza del objeto a clasificar, existen unas reglas generales de clasificación, que son:

1.- Los objetos a clasificar se agrupan en clases que están hechas del modo más homogéneo posible.

2.- Cada objeto se incluye en aquella clase con cuyos miembros comparte mayor número de atributos.

3.- Se establece una clase separada para cualquier objeto que es demasiado diferente para ser incluido en una de las clases previamente establecidas.

4.- El grado de diferencia entre las clases se expresa ordenándolas en una jerarquía de conjuntos encajados. Cada nivel de la jerarquía (categoría) expresa un cierto grado de diferenciación.

Así pues, las clases se establecen en función de los atributos que comparten los objetos y, una clase puede eliminarse si los atributos que la diferencian de las restantes no son suficientes o no están establecidos con claridad.

Una clasificación no es inmutable en cuanto que grupos existentes pueden eliminarse al igual que pueden crearse grupos nuevos por razones de conveniencia, criterio de clasificación, por resultar inadecuada al estado de conocimientos, etc.

Nomenclatura

El último paso de la clasificación biológica, es la perfecta identificación de cada uno de ellos. Esto se consigue con la aplicación de un nombre único para cada grupo y exclusivo para él, de forma que dando ese nombre sea posible identificar el grupo al que pertenece sin confundirlo con otro ===> Nomenclatura.

El objetivo del Código de Nomenclatura Biológica, es asegurar que un taxon sólo tenga un nombre mediante el cual pueda ser conocido correctamente. Un nombre no es mas que un simbolo convencional que sirve para identificar un taxon concreto.

Los nombres de grupos de rango superior a especie, estan formados por una sola palabra latina. Los nombres de las especies son binomiales, uniendo al nombre del género a que pertenece dicha especie un epíteto específico, acorde con el género. Este sistema binomial fué establecido tambien por Linneo, evitando la uitilizacion de frases descriptivas como se hacia anteriormente.

Un nombre debe estar válidamente publicado, para lo cual han de cumplirse varias condiciones:

- publicarse en revistas, monografías, etc, científicas de uso corriente en el campo correspondiente.- obedecer las reglas relativas a la formación de nombres.- dar una descripción del organismo o referirse s una publicación anterior válida.- indicar un tipo nomenclatural, es decir, el elemento sobre el cual se basa la descripción.- establecer claramente su rango.

Puede ocurrir que haya mas de un nombre para un mismo grupo por diferentes razones (ignorar la publicación anterior, considerar como iguales especies descritas como diferentes, etc.). En estos casos se aplica la ley de prioridad, que establece que el nombre correcto es el primero válidamente publicado en Botánica y Bacteriología, o el más antiguo disponible en el caso de Zoología. Los restantes nombres se consideran sinónimos.

Escuelas actuales

Para establecer la clasificación de los seres vivos hay diferentes métodos que permiten aproximaciones distintas a esos objetivos, pero la estructura esta ya establecida y es inamovible. Así pues, nuestro trabajo trata de establecer grupos y encajarlos en ella.

Actualmente se trabaja con distintas metodologías:

Filogenética: es la que sigue el método clásico. No se hacen cálculos especiales, más allá de tomar las dimensiones de los órganos a utilizar.Dan diferente valor a distintos caracteres.El valor que se da a cada carácter depende del conocimiento y la experiencia personal. No hay reglas explícitas para establecer clasificaciones.

Tienen una importante componente de subjetividad y, por tanto, difícilmente reproducibles y comprobables.

Fenética: Su principio es la objetividad, para lo cual parten de tantos datos como sea posible disponer y aplicando cálculos matemáticos.

No presuponen nada sobre los caracteres ni los táxones.Utilizan un gran número de caracteres de diferentes tipos.Dan el mismo valor a todos los caracteres.Se basan siempre en datos expresados de forma objetiva.Utilizan expresiones matemáticas para medir la semejanza.El parentesco se deduce del grado de semejanza.

Sus representaciones son los dendrogramas de jerarquía taxonómica.

Entre sus puntos débiles esta el hecho de que es frecuente que obtener clasificaciones ligeramente diferentes con los mismos datos dependiendo de pequeñas variaciones en el proceso de trabajo y los programas empleados. La crítica más importante que se hace a estos métodos consiste en que no tienen en cuenta posibles convergencias, con lo que son inadecuados para trabajar con grupos de rango taxonómico elevado.

Cladista: Tratan de establecer las relaciones genealógicas dentro de grupos monofiléticos.

Partiendo de unas UEs terminales, buscan la reconstrucción filogenética del grupo, partiendo de: Los caracteres compartidos indican un origen común.Utilizan caracteres de interés evolutivo, solamente.Se basan en la aplicación de algoritmos matemáticos.

Las representaciones que utilizan son los cladogramas.

Puntos débiles de la metodología cladista son que parten de grupos establecidos por lo que, en consecuencia, es necesario establecer los grupos previamente, y que imponen la separación de una especie ancestral en dos, cuando realmente hay otros muchos modos de diversificación.

Puede decirse que los métodos cladistas y fenéticos son complementarios, ya que mediante métodos fenéticos podemos establecer los grupos de nivel mas bajo, y mediante cladística podemos establecer su genealogía.

OrdenaciónEs la situación de t UTOs en un espacio de dimensionalidad variable entre 1 y t-1.

Los métodos de ordenación son fenéticos. Se aplican en casos en los que no tiene por que haber relación entre UTOs, mientras que los métodos de clasificación parten de UTOs relacionados.

Pueden aplicarse a cualquier tipo de datos y los resultados son semejantes a los obtenidos mediante agrupamiento aunque su representación es diferente, disponiendo los UTOs en un espacio bi o tridimensional.

SonchusmaritInulacrithmoid

PlantagocoroPlantagocras

Limoniumolei

LimoniumvulgFrankeniapulvFrankenialaevisCoronopusSpergulariaboc

Spergulariamed

SuaedafruticosaSuaedavera

Atriplex

Halimione

SalicorniaArthrocnemumSarcocornia

Métodos fenéticos de ClasificaciónEl proceso de la clasificación mediante métodos fenéticos, implica:

1.- elección de unidades de trabajo (UTO=Unidades Taxonómicas Operativas) 2.- " de caracteres 3.- descripción y/o medida de los caracteres4.- establecer la semejanza entre cada par de UTOs.5.- establecer los grupos de UTOs6.- Jerarquizar los grupos

1.- Elección de UTOs: Los UTOs son individuos, generalmente. Estos individuos deben estar en estadios de desarrollo comparables (ej.: fases de desarrollo larvario de insectos).

El número de UTOs no debe ser inferior a 10 (Sneath, 1976), y si es posible debe ser superior a 25 para obtener una representación adecuada de la semejanza entre UTOs.

Cuando se trata de grupos mayores, es difícil tratar con individuos, entonces se sigue el mismo proceso pero en etapas distintas. Primero se establecen los grupos y después se trabaja con estos como UTOs.

2.- Elección de caracteres:

a.- Se han de comparar órganos equivalentes. Ej.: hojas basales y superiores de plantas, patas de distintos pares en insectos.

b.- Es preferible disponer de datos de distintos tipos: morfológicos, anatómicos, cariológicos, químicos, ontogénicos, ultraestructurales, etc. Es importante disponer de datos sobre distintos órganos, etapas de desarrollo, etc.

c.- Evitar redundancias: Ej. caracteres ligados. Ej.: Radio y diámetro de un órgano; contenido en hemoglobina e intensidad de color de la sangre.

d.- No se deben usar caracteres relacionados con el medio. Ej.: intensidad del color verde de las hojas con relación a iluminación del medio, además, puede variar en el mismo individuo si cambian las condiciones.

e.- Detección de posibles analogías. Homólogos son órganos iguales en origen y estructura pero con diferentes funciones, análogos son órganos diferentes y con la misma función (Ej.: patas de mamíferos/ aletas de ballenas / aletas de peces). Generalmente, son poco frecuentes en grupos de nivel bajo.

3.- Descripción y/o medida de los caracteres y estados de carácter: Codificación

Los caracteres correspondientes a los distintos aspectos estudiados, se reúnen en una matriz y pueden codificarse de forma binaria o bien expresarse en valores absolutos. En la misma matriz podemos tener datos cuantitativos discontinuos o continuos, y cualitativos, uni- o multiestado.

Los datos cualitativos binarios se expresan como 0/1, generalmente, siendo indiferente a que estado de carácter le llamamos 0 y a cuál 1. Los caracteres cuantitativos discretos o merísticos, pueden tratarse como cualitativos.

Cuando tenemos caracteres cualtitativos y cuantitativos continuos, debemos binarizar los cuantitativos para incluirlos en una misma matriz:

a.- Caracteres cualitativos multiestado: Ej. flores de colores blanco, amarillo y rojo.

* Podemos expresarlos como caracteres diferentes, codificándolos de forma binaria (0/1). blanco: 100amarillo: 010rojo: 001

* Podemos expresar los caracteres dándoles valores que indiquen la diferencia entre estados de carácter (e.c.). Ej.: mayor o menor sensibilidad de microorganismos a un compuesto 1, 2, 3. Se consideran coincidencias 1/1, 2/2 y 3/3; 1/ 2 no indica mayor proximidad que 1/3.

En la práctica, lo más frecuente es expresarlos como caracteres distintos. Esto tiene el inconveniente de se da mayor peso a éstos caracteres que a otros con solo dos estados de carácter. En la práctica, sin embargo, cuando se toman muchos caracteres y solo algunos presentan este problema esa diferencia no es apreciable, ya que se diluye en el conjunto.

b.- Caracteres cuantitativos continuos: Podemos optar entre dos posibilidades- Binarización: Establecer intervalos discretos para expresar los e.c.- Expresar los e.c. mediante sus valores absolutos.

Medida de la Semejanza entre UTOs

Indices de semejanza o distancia entre pares de UTOs. Programa QUALITATIVE.

Existen varios índices para expresar tanto semejanzas como diferencias entre UTOs, que son diferentes según trabajemos con caracteres binarios o valores absolutos.

Para entenderlo mejor, consideremos una matriz de caracteres binarios:

UTO j1 0

U T O i

1 a 1,1 b 1,0

0 c 0,1 d 0,0

a= concordancia positiva 1,1b= discordancia 1,0 m= a+dc= " 0,1 u= b+cd= concordancia negativa 0,0 n= m+u= a+b+c+dSi consideramos que n=1, m= 1-u, u= 1-m

Coeficiente de concordancia simple: SSM= m = m/n = a+d / m+u = a+d/ a+b+c+d

La diferencia más importante respecto al índice de Jaccard, reside en que éste índice sí admite concordancias negativas. Igualmente varía entre 0 y 1.

Indice de Jaccard: SJ= a / a+u = a / a+b+c

Varía entre 0-1, según que no exista ninguna concordancia positiva o concuerden todos los caracteres. Este índice no tiene en cuenta las concordancias negativas (d).

Jaccard fue el primero en utilizar este índice en 1908 (para otros usos), por lo que lleva su nombre, aunque en fenética fue puesto en uso por Sneath en 1957.

Variantes de éste índice son los índices de Dice (1945), también usado por Sorensen (1948): SD= 2a/(2a+u) en que se da mas importancia a las concordancias que a las discordancias.

Rogers y Tanimoto: SRT= m/(n+u)= (a+d)/(a+2b+2c+d).

En grupos pequeños las concordancias negativas tienen importancia, en grandes grupos generalmente no es

así. Por ejemplo, la ausencia de alas no indica semejanza entre nemátodos, ratas y piojos. La ausencia de flores no indica semejanza entre algas, helechos y briofitos. Mientras que a niveles bajos, la ausencia de alas, la reducción de raices, o número de estambres, etc., sí es importante ya que la presencia o ausencia de ese órgano indica semejanza entre UTOs.

Indices de distancia. Programa INTERVAL.

* Distancia de Manhattan: mide el número absoluto de diferencias en estados de caracter entre dos táxones. DM= Σ [Xij-Xik] , siendo Xij, Xik= valores del caracter i para los UTOs j,k.

La Distancia de Manhattan promediada es igual a la anterior pero dividiendo por n = nº absoluto de diferencias de estados de carácter entre dos táxones. Mij= 1/nΣ |Xij-Xik|

* Distancia Euclídea: DE = [ (Xij-Xik)2] 1/2

* Distancia taxonómica promedio: Eij = [Σk1/n(Xij-Xik)2]1/2

Transformaciones

Programas TRANSF y STAND

Cuando tenemos matrices de datos nominales, con frecuencia no encontramos con que tenemos datos medidos en escalas diferentes y con rangos de variación mas o menos amplia, según los datos. Ej.: peso, longitud, superficie, volumen. Peso de un organismo completo respecto a partes de él.

Aquellos caracteres que presenten valores más elevados tendrán mayor peso al aplicar un índice de distancia entre UTOs. Para evitarlo, se aplican transformaciones con las que se consigue que los datos sean comparables.

Las más utilizadas son las transformaciones logarítmicas, en que valores como 1, 10, 100, 1000 y 10000, se convierten en 0, 1, 2, 3 y 4. Con ln se transforman de forma que x = y ln10 (Ej.: trans ln de 1000: x=3x2,3) (ln10=2,302, e=2,7273)

Otras transformaciones son lineares. En ellas se pueden seguir diferentes métodos: sumar, multiplicar o dividir por una constante. Otra transformación de este tipo es: X’= (X-X)/(Xmax - Xmin)

También un mismo carácter puede presentar un amplio rango de variación que producirá distorsiones semejantes en el cálculo de las distancias entre UTOs. El método más utilizado para corregir este efecto, es la standarización: X’= (X-X)/σ.

Agrupamiento de UTOs

Programa SAHN-Clustering

Conocida la semejanza o diferencia entre cada par de UTOs, se trata de establecer la relación que existe entre todos ellos. El árbol se construye uniendo UTOs en función del grado de semejanza (o diferencia) que existe entre ellos.

Estos métodos son aglomerativos, jerárquicos y secuenciales:Aglomerativos: Van uniendo UTOs progresivamente.Jerárquicos: Presentan distintos rangos o niveles de unión de los UTOs.Secuenciales: Se repite el mismo proceso hasta unir todos los UTO.Los métodos mas frecuentes de encadenamiento de UTOs, son encadenamiento simple (SINGLE), completo (COMPLETE), por la media aritmética (UPGMA) y por la media ponderada (WPGMA).

El encadenamiento viene dado por el algoritmo de Lance & Williams (1966, 1967)

U(J,K)L = a JUJ,L + aKUK,L+ bUJ,K+ g[UJ,L-UK,L]

U = coeficiente de semejanza o distancia para los UTOs J-K y L (J-K es un grupo ya unido), a, b, g son coeficientes establecidos según el método de encadenamiento que se sigue.

aj ak b g U Simple 1/2 1/2 0 -1/2 min.Completo 1/2 1/2 0 1/2 max.WPGMA 1/2 1/2 0 0 media ponderadaUPGMA tj/t j,k tk/t j,k 0 0 media aritmetica

En el encadenamiento simple, llamado también método del vecino más próximo, o de los mínimos, se unen los UTO por el valor de mayor semejanza o menor distancia.

En el encadenamiento completo, del vecino más lejano o de máximos, se unen los UTOs por el valor menor de semejanza o mayor de distancia.

En el encadenamiento por la media, se obtiene la media de los coeficientes de semejanza (o diferencia) entreUTOs, y se unen según este valor. En éste caso, cada vez que se obtiene un grupo se ha de volver a calcular los valores medios. En el caso del encadenamiento UPGMA se promedian los valores originales, en el encadenamiento WPGMA, se emplean los de la matríz triangular inmediatamente anterior. El método de encadenamiento UPGMA es el más usado en análisis cluster.

Evaluación de resultados

Programas COPH y MXCOMP

El programa MXCOMP de NTSYS, permite medir el grado de relación existente entre dos matrices triangulares, la de distancias (o semejanzas) y la de valores cofenéticos. Para ello, utiliza el test de Mantel, que fué desarrollado para establecer relación entre datos geográficos y de otro tipo. En éste test, se obtiene Z

n

Z = ƩXijYik

i<j

Xij e Yik son los elementos no diagonales de las matrices X (o S= semejanza) e Y (o C= valores cofenéticos).

El valor que se obtiene al aplicar el test de Mantel a una matríz de valores cofenéticos y otra sobre la cual se basa el encadenamiento, es un coeficiente de “correlación cofenética”, que puede usarse para medir la bondad de un análisis cluster.

Para poder comparar dos matrices (MXCOMP), éstas han de tener el mismo formato. Las dos matrices a comparar son la triangular de semejanzas o distancias y la de valores cofenéticos (aquellos con los que se ha construido el dendrograma). Dado que el formato de ambas matrices es diferente, el primer paso es obtener una matriz triangular de valores cofenéticos. Esto se consigue con el programa COPH.

El resultado aparece como un valor de r (ajuste entre los valores de ambas matrices). Este valor, generalmente, varía entre 0,7 y 0,95, dependiendo del método de encadenamiento (u ordenación), y de la naturaleza de los UTOs clasificados.

Para interpretarlo fácilmente, podemos decir 0.9<r ajuste muy bueno0.8<r<0.9 ajuste bueno

0.7<r<0.8 ajuste pobre 0.7<r “ muy pobre

Se obtiene tambien N = nº valores que se comparan = [(nº objetos)2-nº objetos]/2ejemplo: en matrices triangulares de 10 x 10 N= (100-10)/2 = 45; en matrices de 8 x 8 N = (64-8)/2 = 28

Complementariamente, puede obtenerse un gráfico de la distribución relativa de los N objetos en las dos matrices (> amplitud en UPGMA que en encadenamiento simple, por ejemplo).

NTSYS:1.- COPH: Obtención de la matriz de valores cofenéticos en formato triangular

entrada: matriz.sahsalida: matríz.cof

2.- MXCOMP: Comparación de matrices triangulares mediante el test de Mantelentrada1: matríz.sm (o dis) entrada2: matríz.cof

Arboles de consenso

Cuando hay mas de un árbol posible, no sabemos cual de ellos es el verdadero o el mejor. Esto puede resolverse con los “árboles de consenso”.

Los datos que se proporcionan al programa son los que se obtienen de SAHN clustering. Pueden darse varias matrices en un mismo archivo o en dos diferentes. Si hay varios árboles en un fichero, el programa hará todas las combinaciones posibles entre árboles de ese fichero, para obtener el árbol de consenso. Si hay dos archivos con varios árboles, hará todas las combinaciones entre los árboles de los dos archivos.

NTSYS utiliza tres métodos: STRICT: cada elemento del grupo ha de formar parte de él en todos los árboles que se comparan. Es el que el programa tiene por defecto.

MAJRUL: une los UTOs que se encuentran unidos en más del 50% de los árboles. Si hay dos árboles o si ponemos el nivel 1, el resultado es igual que si se trata de STRICT.

STINEB: es mas complejo. Para cada subgrupo que contiene el UTO i, la intersección se obtiene del conjunto de todos ellos.

Indices de consenso: Son valores que permiten evaluar la calidad de los árboles de consenso. Hay varios:

N = nº total de subgrupos del árbol de consenso, sin contar el grupo completo y los subgrupos unitarios.

Índice de consenso de Colless: ICc = N/(n-2)Índice de consenso de Michevich: ICM = Ni/NmaxÍndice de consenso de Schuh & Farris: ICSF = Ni siendo Ni=[ni(ni-1)]/2

NTSYS:1.- CONSENSE: Se dan dos archivos de entrada conteniendo las matrices que vamos a consensuar

entrada1: matriz1.sahentrada2:matriz2.sah

Métodos cladísticos

Buscan la reconstrucción filogenética de un grupo partiendo de las UEs (Unidades Evolutivas) terminales. Para ello, suponen que los caracteres compartidos indican un origen común, así pués, a partir de los caracteres que comparten las UEs buscan los ancestros comunes mas recientes a cada par de UEs o de estas con dichos antecesores comunes mas recientes.La Cladística se basa en caracteres homólogos, es decir aquellos cuya semejanza procede de un origen común, y no pueden emplearse caracteres semejantes resultantes de homoplasia, es decir por convergencia (aparición independiente en grupos que no comparte un origen común) o reversión (aparición del e.c. ancestral después de que este haya sufrido un cambio progresivo: 0-1 revierte a 0).

Las representaciones son árboles llamados cladogramas, al final de cuyas ramas se disponen las UEs y cada par de ellas se unen en un nudo, que representa al antecesor común mas reciente a ambas UEs. La metodología cladista no admite otro tipo de topología, como las politomías (varias ramas partiendo del mismo nudo).

Las etapas de trabajo necesarias para desarrollar el estudio cladístico de un grupo, son:

1.- Selección de grupo. Las unidades de trabajo son las Unidades Evolutivas (UEs).2.- Selección de caracteres de interés evolutivo.3.- Codificación de caracteres.4.- Construcción árboles de Ues.5.- Asignación de rango y nombre a cada grupo.

Para realizar un estudio cladístico, partimos de una matriz semejante a las empleadas en fenética. Mediante la aplicación de un algoritmo adecuado, obtendremos los árboles de UEs, en los que se observaran las relaciones filogenéticas que existen entre UEs.

1.- Selección de grupo: Las UEs deben ser apropiadas a las preguntas que deseamos responder. Con frecuencia son especies. El grupo debe ser monofilético. Para algúnos autores no sería correcto trabajar con grupos parafiléticos.

Selección de grupo

A B C D E F GA B E F

parafiléticopolifiléticomonofilético

Monofilético es un grupo de organismos que tienen un antecesor evolutivo común.

Holofilético es equivalente al término anterior pero en el caso concreto de que se incluyan todos los organismos que tienen el mismo origen.Parafilético: Grupo que comprende un antecesor común y algunos, pero no todos, los organismos que comparten ese origen común.Polifilético: es el grupo que comprende dos o más grupos de táxones cuyos antecesores más recientes no son miembros de un mismo grupo.2.- Selección de caracteres de interés evolutivo: Los caracteres útiles en Cladística son aquellos en los que la probabilidad de cambio es baja.

3.- Codificación de caracteres: Es la forma en que vamos a expresar cada uno de los estados de carácter que presentan los diferentes caracteres considerados. Varía dependiendo del tipo de caracteres, podemos codificar con datos cuantitativos (frecuencias alélicas) o binarios. Estos, a su vez, pueden ser 0/1 (caracteres morfológicos, sitios de restricción) o letras (secuencias de nucleótidos o proteinas).

4.- Construcción de árboles de UEs: Hay varios métodos para la construcción de árboles de Ues. Cuando nuestros datos dan medidas de distancia pueden aplicarse Neighbor-joining WPGMA) o UPGMA. Ambos son métodos aglomerativos y secuenciales semejantes a los empleados en Fenética. En Cladística el más empleado es el método de parsimonia, que impone que el árbol mas adecuado para explicar la filogenia de un grupo es aquél que implica menor número de cambios. Dependiendo del tipo de caracteres y las posibilidades de cambio que estos pueden sufrir, se pueden aplicar diferentes algoritmos, así como para la construcción de árboles. Los árboles se enraízan a posteriori, generalmente por comparación con uno o mas grupos externos.

5.- Establecimiento de la genealogía del grupo

Métodos de parsimonia

En parsimonia siempre se busca el árbol que requiere menor número de transformaciones. Para hallarlo existen diferentes posibilidades que están muy relacionadas con el tipo de datos y la probabilidad de cambio de los caracteres.

1.- Wagner: Los cambios 0-1 y 1- 0 son igualmente probables, por lo que se admiten reversiones. Los cambios son aditivos: si 0 1 supone un cambio, y 1- 2 otro, el paso 0-2 supone dos cambios,0-1-2-3 supone 3, y así sucesivamente.Es adecuado para caracteres multiestado.

2.- Camin-Sokal: Los cambios 0-1 son mucho mas probables que a la inversa y, por tanto, no admite reversiones.

El estado ancestral debe ser conocido.

3.- Fitch: Es semejante al de Wagner, en el sentido de que pueden producirse cambios en cualquier sentido, pero aquí no son aditivos. Por lo tanto es adecuado para caracteres desordenados como los datos de secuencias en que cada base o proteína puede cambiar a cualquier otra.

4.- Dollo: Asume que la probabilidad de cambio 0-1 es menor que la de reversión 1-0. Así pues, permite un solo cambio del primer tipo mientras que pueden haber tantas reversiones como sea necesario para explicar el patrón de estados observado. Es adecuado a sitios de restricción y, en general, a caracteres que sufran un solo cambio.

5.- Polimorfismo: Un carácter puede manifestar simultáneamente sus e.c. plesiomórficos y apomórficos. Admite reversión de caracteres.

Construcción de árboles de UEs

Como viene siendo habitual, también para la construcción de árboles existen diferentes métodos, dependiendo del tipo de datos, así como del número de UEs.

Cuando nuestros datos son medidas de distancia, los métodos mas empleados son UPGMA y Neighbor-Joining o WPGMA, vistos en Fenética.

Cuando se aplican métodos de parsimonia, lo deseable es evaluar todas las topologías posibles escogiendo la mejor. Dado que el número de topologías posibles es (2n-3)!/[2n-2(n-2)!] (n=número de UEs) esto solo es posible cuando el número de UEs es bajo. En el caso de que el número de UEs sea mayor, se construye el árbol añadiendo una UE cada vez y valorando cual es la posición óptima de acuerdo con el criterio de parsimonia. El orden en que se toman las UEs puede influir en el resultado final, por lo que los programas suelen disponer de una opción que permita cambiar el orden al azar. Repitiendo este proceso un cierto número de veces, aumentamos la probabilidad de obtener el mejor árbol posible.

Trabajo con Phylip

MIX

Es un programa que trabaja con datos binarios que, por los algoritmos que emplea, es adecuado para el trabajo con caracteres morfológicos.

Utiliza los algoritmos de Wagner y Camin-Sokal, o bien puede aplicar los dos al mismo tiempo para diferentes caracteres.

Si se escoge la opción M (=mixture) pueden usarse ambos algoritmos para diferentes caracteres. En este caso, es necesario especificar el algoritmo a aplicar a cada carácter. Esto se hace escribiendo la inicial del algoritmo (W=Wagner; C(S)=Camin-Sokal) en una línea entre la cabecera y los datos de UEs.

El programa asume:

1.-Camin-Sokal: Los estados ancestrales son conocidos Wagner: Los estados ancestrales son desconocidos

2.- Los caracteres evolucionan independientemente

3.- Los linajes evolucionan independientemente

4.- Permite utilizar los métodos de Wagner y Camin-Sokal

5.- Cualquier cambio es poco probable “a priori”

Opciones: U,J,O,T y M. La opción U permite evaluar la calidad de los árboles. Da la media y la varianza de las diferencias en pasos entre árboles, si la media es >1’96σlos árboles son significativamente distintos.

DNAPARS

Obtiene árboles de UEs a partir de datos de secuencias

Es un programa semejante a MIX que parte de los mismos supuestos:

1.- Cada sitio evoluciona independientemente


3.- La probabilidad de sustitución de bases en un sitio dado es pequeña respecto a cada rama de la filogenia

4.- La probabilidad de cambio en diferentes ramas de la filogenia son semejantes

5.- Es igualmente probable que se produzca un cambio en sitios diferentes que mas de uno en un mismo sitio

Permite utilizar las mismas opciones que MIX (U,J,O,T y M).

DOLLOP

Para matrices binarias de sitios de restricción

Utiliza el algoritmo de Dollo. El programa intenta minimizar el número de reversiones necesarias.

El programa asume:

1.- Se conoce el estado de carácter ancestral (0)

2.- Los caracteres evolucionan independientemente


4.- La probabilidad de cambio hacia delante (0-1) es pequeña respecto al tiempo evolutivo implicado

5.- La probabilidad de reversión es también pequeña, pero mucho mayor que la de cambio hacia delante, por

lo que es mas fácil que hayan varias reversiones que un cambio hacia delante.

6.- Es altamente improbable la retención de polimorfismo de ambos estados de carácter (0,1)

Opciones: U,J,T,A y M

GENDIST

Adecuado para datos de frecuencia genética.

El programa halla la distancia genética entre poblaciones (o especies) y puede hacerlo por tres métodos:

1.- Nei (1972): D= -ln Ʃk[xkixkj ]/(Ʃkx2kix2

kj )½

2.- Cavalli-Sforza Cavalli-Sforza & Edwards, 1967): dij= 4[n-Ʃk(xkixkj)½], n=nº loci

3.- Reynolds, Weir & Cokerham (1983): D2= ƩƩ[xki-x2kj]/2Ʃ[1-Ʃxkixkj]

El índice de Nei asume mutación neutral, equilibrio entre mutación y deriva, y tamaño poblacional constante, mientras que los otros dos no. En ellos la variación de frecuencias se debe a deriva, principalmente, y ésta depende del tamaño efectivo de las poblaciones, de forma que a mayor tamaño es mas lenta.

Obtenida la matriz de distancias, se utiliza un programa para obtener los árboles (por ejemplo NEIGHBOR).

NEIGHBOR: Obtención de árboles a partir de matrices de distancias.

Partiendo de una matriz de distancias, este programa construye árboles de UEs mediante uno de dos métodos alternativos, Neighbor-joining o UPGMA. El método UPGMA es igual al visto en fenética y Neighbor-joining, que es la opción por defecto, se ha explicado mas arrriba.

CONSENSE: Arboles de consenso.

Cuando nos encontramos con que hay dos o más árboles posibles que tienen la misma calidad. Una solución posible a este problema es la obtención de árboles de consenso.

El archivo de entrada de datos ha de contener los árboles con los que obtener el de consenso, es decir, un treefile.

Se puede escoger entre dos métodos de consenso (visto en métodos fenéticos): Strict consensus tree.Majority rule consensus tree: los grupos que aparecen >50% de las veces. Puede cambiarse a cifras entre 50-100%, pero no inferiores a 50%.

SEQBOOT: Métodos Bootstrap.

Cuando el número de UEs es elevado, se emplean métodos como el “stepwise addition”, cuyo resultado depende del orden en que se van uniendo las UEs. Dado el elevado número de árboles posibles, en este caso solo podemos aproximarnos al mejor árbol posible. Recientemente se han ideado métodos que, simulando la influencia que tienen diferentes grupos de datos seleccionados de forma mas o menos aleatoria de la matriz original, permiten conocer el número de veces que aparece cada nudo en el árbol cuando se toman solo parte de los caracteres. Ese número es un indicador de la probabilidad de que aparezca ese nudo en la evolución del grupo.

El programa SEQBOOT permite crear múltiples grupos de datos con los originales. Hay tres métodos: - Bootstrap toma, cada vez, N caracteres al azar con reemplazamiento, de forma que el grupo resultante tiene el mismo tamaño que el original pero algunos caracteres no se tienen en cuenta y otros se duplican.- Jackknife toma la mitad de datos al azar y la otra mitad no se toma en cuenta, cada vez.- Permutación: Permuta los caracteres de la matriz original, haciendo que no haya estructura taxonómica.

Este programa puede aplicarse a matrices rectangulares o a matrices de distancia. Para obtener un árbol, ha de enlazarse con otros:1.- SEQBOOT, el archivo de entrada de datos contiene una sola matriz. El resultado del trabajo es otra matriz conteniendo múltiples grupos. Esto puede hacerse mediante uno de los tres métodos explicados arriba (bootstrap por defecto).2.- MIX usa como matriz de entrada el outfile obtenido con SEQBOOT3.- CONSENSE obtiene el árbol de consenso. Utiliza el treefile obtenido con MIX, tal cual.

Métodos de OrdenaciónLa obtención de dendrogramas es el método de clasificación fenética más adecuado cuando partimos de organismos que presentan niveles de semejanza importantes y, por tanto, es evidente que deben reunirse en grupos, de forma que nuestro problema es ver cómo se agrupan (nº de grupos, niveles de agrupamiento).

Con frecuencia, tanto en Biología (Ecología, Paleontología) como en otras materias de investigación

(Sociología, Economía, Antropología, Medicina, etc.), nos encontramos con objetos definidos por un conjunto de variables, y tratamos de establecer si existen o no relaciones entre ellos.

Para resolver este tipo de problemas, se emplean técnicas de análisis multivariante conocidas como métodos de ordenación.

Existen diferentes métodos que son adecuados para diferentes tipos de datos (cuantitativos o cualitativos), y que utilizan diferentes índices de distancia pero, en esencia, todos ellos tratan de conseguir lo mismo: partiendo de una matriz de dimensiones nxm (UTO x caracteres), representar los UTO en un hiperespacio de dimensión t. El número de ejes de este hiperespacio esta reducido respecto al original.

Para ello, es necesario que exista correlación entre algúnos de los caracteres, de modo que cada vector exprese combinaciones de esos caracteres. Si no es así, si todos son mutuamente independientes, entonces es imposible reducir esas dimensiones y no es posible este tipo de análisis multivariante.

El agrupamiento entre ejes se realiza de tal forma que los nuevos vectores reúnan la máxima cantidad de variación, y no estén correlacionados entre sí.

Análisis de Componentes Principales

Se aplica a datos cuantitativos. Utiliza la distancia euclídea.

El Análisis de Componentes Principales (PCA) es uno de los métodos mas usados entre los de ordenación.

Los nuevos ejes, que aquí se llaman Componentes Principales, son combinación lineal de los valores de la matriz original, de forma que uno de ellos es combinación de las variables X1, X2, .... Xp

Z1=a11X1+a12X2+ ..... a1pXp

Las dimensiones independientes se denominan vectores propios, y son aquellos distintos de 0. Su número se denomina rango de la matriz. Un valor propio es igual a la varianza a lo largo de su eje correspondiente, es decir, de la llamada componente principal, var(Zi)=λi

Las constantes ai1, ai2,.... aip son los elementos de vector propio. Estos cumplen la propiedad de que su suma es =1: a2

i1+ a2i2+ ..... a2

ip = 1

De forma resumida, el proceso que se sigue es el siguiente:

1.- Estandarización de los datos (STD)2.- Obtención de la correlación/covarianza que existe entre las variables ==> matriz triangular. (Simint: corr, o Varcov). Si los datos se standarizan, la matriz de correlación = matriz de varianzas-covarianzas de datos no standarizados.

La covarianza entre dos variables j,k es: cjk = Ʃ (xij-xk)(xik-xk)/(n-1)Ejemplo: Partiendo de la matriz pajaros.txt, la matriz de correlación obtenida es:

1.00000 0.68934 1.00000 0.63506 0.67540 1.00000 0.59171 0.76851 0.76102 1.00000 0.56685 0.52901 0.52408 0.60665 1.00000

3.- Eigen: A partir de la matriz triangular, obtiene los componentes principales y los valores propios de cada

componente principal.

Coeficientes de los vectores propiosComponente Valor Propio X1 X2 X3 …….(=nº ejes pedidos)______________________________________________ 1 3.54925 0.82538 0.04166 0.53674 2 0.53268 0.87593 -0.21787 0.07984 3 0.43176 0.85881 -0.23903 -0.16466 4 0.31790 0.89145 -0.13462 -0.30394 5 0.16841 0.75400 0.63892 -0.13341

total=5

Valores propios % explic. % acumulado ________________________________________________ 1 3.54925 70,98 70,98 2 0.53268 10,65 81,63 3 0.43176 8,63 90,27 4 0.31790 6,35 96,63

5 0.16841 3,37 100

El % de explicación se obtiene dividiendo el valor propio de cada componente principal por la suma de los valores propios. Así el % de explicación del primer componente es 3,549/5=70,98%; 2º componente 0,532/5= 10,65%, etc.

Los valores propios se dan en orden descendente, de forma que el primer eje es el que reúne mayor cantidad de información, seguido del segundo, y así sucesivamente.

4.- Proyección de los UTOs sobre los nuevos vectores.

5.- Dibujo (MXPLOT o Mod3d)

Ntsys: 1.- Std: standarización de variables (si es necesario)2.- Simint: corr/varcov (correlación=covarianzas entre variables std).3.- Eigen: obtención de vectores y valores propios.

Entrada: matriz .cov Salida: dos archivos conteniendo vectores y valores propios, respectivamente.

En el informe (report listing) aparecen los valores propios, los % de explicación y los % acumulados. En las respectivas matrices se guardan los valores propios y los vectores propios, con éstos se puede ver la contribución de cada variable original a cada uno de los nuevos ejes. 4.- Proj: proyección de ejes en los ejes PCA.

Entrada: matriz .std Entrada: matriz de vectores propiosEntrada: matriz de valores propios (opcional)Salida: matriz de proyección: contiene las nuevas coordenadas de los UTO respecto a los nuevos ejes(componentes principales)

5.- Mod3d: gráfico tridimensional. Entrada: = archivo de salida de ProjAnálisis Factorial de Correspondencias

Es un análisis complejo, por lo que Ntsys dispone de un programa específico: CORRESPONDENCE ANALYSIS

Se aplica a datos cualitativos o bien matrices de frecuencias.

Como medida de distancia, utiliza la 2 (mide frecuencias)

Representa poblaciones o UTOs y caracteres al mismo tiempo, permitiendo ver las relaciones entre ellos.

Este tipo de análisis tiene un propósito semejante al de Componentes Principales. La idea básica es que es posible describir un conjunto de variables en función de un número menor de índices o factores para, así, establecer las relaciones que existen entre ellas. También el procedimiento es semejante al del Análisis de Componentes Principales en cuanto a la extracción de valores y vectores propios. Sin embargo presenta varias diferencias importantes:

Si la distribución de frecuencias de los caracteres en la población Hi viene dado por Hi= (fi1/fi, fi2/fi,….fin/fi)

la distancia 2 entre las poblaciones Hi,Hj en relación a los caracteres A1, A2, … An, es: d2(Hi,Hj) =1

El modelo que sigue el AFC es el siguiente: (ƒij = ƒ i• ƒ•j )1/2 (1+ Ʃ k (λk λik λjk)1/2 siendo ƒ ij las frecuencias relativas x ij/x•• , ƒ i• ƒ•j las frecuencias relativas de filas y columnas, λk es el k valor propio y λik λjk son elementos de las matrices de factores de filas y columnas.

Utiliza un número reducido de vectores principales, los 2-3-4 primeros (los de mayores valores) y con ellos vuelve a obtener los nuevos que ahora se llaman “factores”. Para obtener esos factores, hace unas “rotaciones” que consisten en escoger los valores dij de las nuevas ecuaciones F’1 = d11F1 + d12F2 + ..... + d1mFm

Esas rotaciones pueden ser de distintos tipos según se desee la total independencia de los factores o no. Así, en las rotaciones oblicuas los factores no están correlacionados, como los antiguos vectores.

NtsysCORRESPONDENCE ANALYSIS. El archivo de entrada es el que contiene la matríz original, se crean otros siete y, como resultado, tenemos ya la representación gráfica. En el informe, se dan los valores propios y los % de explicación que cada uno de ellos representa en el conjunto, así como los acumulados. Aparecen también las frecuencias relativas y las distancias 2 al centroide de cada UTO y cada variable. (Aquí los valores propios son <1).Las matrices que se crean son: Factores de filas y columnas, contienen las coordenadas respecto de cada eje. Contribuciones absolutas, contienen la proporción de la variación de cada factor que explican las variables y los UTO. Correlaciones cuadradas, se muestra la importancia de cada variable y UTO para cada factor.

Para representar UTOs y caracteres, podemos, tambien, utilizar los programas 2D-PLOT y 3D-PLOT, para dos o tres dimensiones. El archivo de entrada es el de factores de filas/columnas obtenido con CORRESP (según vayamos a representar UTOs o caracteres), y la dirección será siempre por columnas.

Análisis de la Función Discriminante

Objetivo: Saber si es posible separar dos o más grupos de individuos en función de un número de variables (cuantitativas) y, si lo es, cuan bien puede hacerse.

Procedimiento: Partimos de dos o más grupos de UTOs que comparten el mismo número de variables. Se caracteriza cada grupo para compararlo con los restantes, después.

Se asignan los UTO a cada grupo. Este análisis no se ve afectado de forma importante por el escalamiento de las variables individuales, por lo que no es necesario estandarizar los datos.

1.- SIMINT: Creamos la matriz de varianzas-covarianzas de cada grupo (índice varcov). Dirección: por caracteres.

2.- POOLVCV: Creamos la matriz de varianzas-covarianzas entre grupos: Entrada: archivo de matriz rectangularEntrada: archivo con la matríz de varianzas-covarianzasCrea: matriz de medias de grupos (.mgr). matriz de covarianzas entre grupos (.cgr). matriz de tamaños de grupos (.tam).

3.- CVA: Hallamos las relaciones entre grupos de medias con respecto a la variación intragrupos, para asignar especimenes desconocidos a grupos previamente establecidos.

Se dan las tres matrices creadas en el paso anterior, y se crean otras nuevas: a.- vectores canónicos (.cve).b.- covarianzas de las nuevas variables que se comparan con las originales (cvv).c.- coordenas de las variables canónicas (las proyecciones de las desviaciones de las medias de los grupos respecto de la gran media en las variables canónicas (.sco)).d.- distancias generalizadas entre todos los pares de medias de grupos (.gdi).e.- Por último, se da la matríz cuyos UTO se quieren asignar a aquellos grupos (.txt).En el informe salen las asignaciones a grupos, con eso se obtiene el % de asignaciones correctas, lo que nos dará la validez de esas variables para caracterizar grupos y, por tanto, la fiabilidad de asignaciones de nuevos UTO.

Han de determinarse funciones de las variables que separen los grupos tan bien como sea posible. La forma mas simple consiste en buscar combinaciones lineares de las X variables tales como: Z = a1X1+a2X2+ ….. +apXp

los grupos pueden separarse bien usando Z si la media cambia considerablemente entre grupos, siendo los valores de cada grupo bastante constantes.

Una forma de hallarlo es mediante la distancia de Mahalanobis: halla un vector de medias por grupos Dij2=

Ʃpr=1 Ʃp

s=1 (µri - µrj) vrs (µsi - µsj) en que vrs es el elemento de la fila r y columna s, de la matriz inversa de covarianzas para las p variables, por tanto: D2

ij= (µi - µj) V-1 (µi - µj).

Análisis de la Correlación Canónica

Objetivo: Este análisis permite establecer si existe correlación entre variables de dos tipos diferentes.

Ejemplo: Disponemos de datos sobre altitud, precipitaciones y temperaturas máxima y mínima, por una parte, y sobre frecuencias de alelos de Pgi, de distintas poblaciones (filas) de la mariposa Euphydryas editha. (matrices: mari, mariposas)

En este análisis, se buscan combinaciones lineares con las variables de los dos tipos por separado. Cada par de

ellas ha de tener una correlación máxima (entre las de los dos tipos). En este análisis, se impone la condición de que estas combinaciones lineales sean ortogonales (correlación 0) con respecto a cualquier otro par de combinaciones y dentro de cada grupo de variables.

Si las variables (=caracteres) del primer grupo son X1, X2, X3… y las del segundo son Y1, Y2,Y3, …. se buscan combinaciones del tipo

U=a1X1+a2X2+ … para el primer grupo de variablesy

V= b1Y1+b2Y2+ … para el segundo

Si la correlación entre U y V es elevada, podemos suponer que ambos tipos de caracteres estan relacionados.

En la práctica, pueden calcularse varios pares de variables canónicas. En este caso el nuevo par U2 V2, tiene la mayor correlación entre sí y no están correlacionadas con las del par anterior U1 y V1. El máximo de pares posible viene dado por el del grupo con menor número de variables.

Procedimiento:

1.- SIMINT: Hallar la matriz de correlación (corr) entre las variables (caracteres) con las que se va a trabajar. La matriz de correlación X/Y aparece en el informe.

X1 X2 X3 X4 Y1 Y2 Y3 Y4

X1

X2 correl. X/X correl X/Y

X3

X4

Y1

Y2 correl. X/Y correl Y/Y Y3

Y4

2.- CanCorPLSa.- Entrada la matriz de salida de SIMINT:corr.b.- se da una lista de los caracteres del primer grupo: 1,2,3,4c.- tipo de análisis: CANCOR/PLS.d.- número de variables canónicas a calcular.e.- archivo con las combinaciones lineares del primer grupo de variables(.izd).f.- ídem. con el segundo (dch).g.- matriz de valores singulares: correlaciones cuadradas de las combinaciones entre var. canónicas y los vectores propios b1,b2,… (.sin)h.- matriz de correlaciones entre combinaciones lineares del primer grupo y todas las variables (.ci).i.- ídem con las del segundo grupo y todas las variables (.cd).Siguen otras dos matrices opcionales, que no se crean en nuestro caso.

Las matrices h e i contienen los valores de la correlación de las variables con las combinaciones del primer y segundo grupo, respectivamente. Estos nos permiten interpretar las variables canónicas: valor absoluto mas elevado indica mayor correlación, el signo positivo o negativo indica correlación positiva o negativa.

Anexo 1: Introducción al programa Ntsys

Formato de archivos:Para que el programa Ntsys pueda trabajar con los datos de un archivo, es necesario que éste le proporcione información con un formato determinado. Además de los datos, esa información esta contenida en la cabecera. Esta consta de cuatro datos:a.- Tipo de matriz. Es el primer dato que ha de leer el programa. Es una cifra que indica el tipo de matriz:1 - matriz rectangular2 - “ de distancias3 - “ de semejanzas4 - 5 - 6 - valores cofenéticos

b.- Número de filas. Podemos utilizar etiquetas (labels) que nos permitan identificar cada fila, poniendo junto al número de filas una letra. Dicha letra indica que hay etiquetas y según la letra empleada, indicamos dónde están las etiquetas:L - label - las etiquetas se sitúan entre la cabecera y la matrizB - beguinning - etiquetas al principio de cada filaE - end - etiquetas al final de cada fila

Una etiqueta no puede ocupar mas de 16 espacios.

c.- Número de columnas. Si queremos poner identificadores, lo haremos con L y los daremos entre la cabecera y la matriz.

d.- Datos codificados como presencia/ausencia: 1/0Ntsys puede trabajar con matrices en las que falta algún dato. En este caso, el cuarto dato de la cabecera es 1 seguido de un código que sirve para que el programa sepa que cuando lo encuentra entre los datos de la matriz, ese no es un valor sino un dato ausente. Se recomienda utilizar 999.

A continuación se da la matriz de datos. Estos se separan por un espacio en blanco.

Ntsys permite poner comentarios. Se sitúan antes de la cabecera y se indican con “ al principio de cada línea de comentario, pero no al final.

Ejemplo: Matriz rectangular de 3 filas y 4 columnas con etiquetas L para ambas, datos completos y comentarios“Línea de comentarios1 3L 4L 0A B C1 2 3 40.7 2.3 3.5 7.11.2 6.8 1.5 4.71.1 3.3 1.0 2.2

La misma matriz con etiquetas de filas al principio, datos ausentes en la fila 1 columna 3, y sin comentarios:1 3B 4L 1 9991 2 3 4A 0.7 2.3 999 7.1B 1.2 6.8 1.5 4.7C 1.1 3.3 1.0 2.2

Ejemplo de matriz de datos binarios:1 4L 4 0A B C D1 1 0 10 1 0 11 0 1 00 0 0 1

Formato: Los archivos para trabajar con Ntsys, pueden crearse con el editor del propio programa o bien con cualquier programa de tratamiento de texto. En este caso, hay que guardar los archivos en formato txt, nunca doc.

Programa OUTPUT: Sirve para ver el contenido de los archivos. Para poderlo utilizar los archivos han de tener el formato adecuado para Ntsys.

Mensajes de error frecuentes: Cuando se realiza una operación ilícita, el programa se bloquea y no es posible seguir trabajando.

Mensaje: Solución: Cannot focus a dissabled window Cerrar el programa y volverlo a abrir.Problem in reading value: 1.000000…. Idem.Access violation …. (número) … Reiniciar el ordenadorFile not found Situarse en la línea del archivo de entrada y dar doble click.

Aparecerá una pantalla pequeña en la que podemos señalar el archivo.

Importante: No minimizar el report listing. La consecuencia es que al ejecutar otra vez el mismo programa u otro diferente, no encontramos los datos que habitualmente aparecen en pantalla y los archivos de resultados están vacíos.

Anexo 2: Introducción al programa Phylip

Phylip siempre nos pide un archivo de entrada antes de arrancar a trabajar, si no lo encuentra no sigue. Cuando encuentra dicho archivo, despliega una pantalla con diferentes opciones que podemos utilizar o no. Algunas de ellas requieren una preparación previa de la matriz.

Después de seleccionar las opciones con las que vamos a trabajar, aceptamos (tecla enter) y se obtiene un archivo outfile y, según los casos, otro treefile, que se encuentran entre los de Phylip. Para conservar los datos de dichos archivos y seguir trabajando con Phylip, es necesario cambiarles el nombre y, en nuestro caso, enviarlos al diskette. Ambos se pueden abrir con programas de tratamiento de texto (Word). Si abrimos los archivos treefile con el programa TreeView obtenemos gráficos de calidad en distintos formatos. Si a estos archivos les ponemos la extensión .tre, los dibujará cargando el programa TreeView simultáneamente.

Formato de archivos: Phylip no tiene editor, por lo que los archivos deben construirse con un programa de tratamiento de texto y ser guardados con formato texto (.txt).

El archivo solo contendrá los datos que el programa necesite para trabajar, sin texto en el archivo.

Los primeros datos que lee el programa son los que le indican el número de filas y el de columnas y, a continuación, la matriz.

Las UEs se sitúan siempre en filas. Para identificar cada UE se reservan los diez primeros espacios de cada fila.

Dependiendo del tipo de datos, los caracteres se pueden indicar con valores, letras o ser binarios (0/1). Solo en el caso de valores es necesario utilizar espacios en blanco para separar caracteres. Cuando tenemos largas series de datos, podemos separar por un espacio los bloques de diez, facilitando la identificación de cada dato.

Ejemplos:

Datos binarios: Secuencias de ADN:6 12 6 12 UE1 0010010011 01 Especie1 AGCAGGCAATTAUE2 0101010101 01 Especie2 GCTTAATCGTCCUE3 1100101001 00 Especie3 CAGTAATCCTGCUE4 1001101010 10 Especie4 CCTTGACGACTTUE5 0010101010 10 Especie5 AAGCTAAGACTTUE6 0101010101 11 Especie6 CCGGTAATTCGG

Frecuencias de alelos: 6 73 1 2 1 1 1 2pob 1 0.065 0.130 0.805 1.000 0.935 0.065 1.000 1.000 1.000 0.568 0.432pob 2 0.000 0.000 1.000 1.000 1.000 0.000 1.000 1.000 1.000 0.435 0.565pob 3 0.000 0.130 0.870 1.000 1.000 0.000 1.000 1.000 1.000 0.275 0.725pob 4 0.000 0.000 1.000 1.000 1.000 0.000 1.000 1.000 1.000 0.267 0.733pob 5 0.000 0.000 1.000 1.000 1.000 0.000 1.000 1.000 1.000 0.494 0.506pob 6 0.000 0.000 1.000 1.000 1.000 0.000 1.000 1.000 1.000 0.700 0.300

Se requiere una segunda línea de encabezamiento cuyas cifras corresponden al número de alelos (columnas) de los distintos loci.

Matriz de distancias: 6pob 1 0.0000 pob 2 0.0090 0.0000 pob 3 0.0012 0.0044 0.0000 pob 4 0.0090 0.0000 0.0044 0.0000 pob 5 0.0090 0.0000 0.0044 0.0000 0.0000 pob 6 0.0090 0.0000 0.0044 0.0000 0.0000 0.0000

Opciones dentro de los programas

A, Por defecto, el programa considera como ancestral el estado 0 y como derivado el 1, en matrices binarias. Con esta opción se pueden cambiar los estados de carácter ancestrales, especificandolo en cada caso. En el archivo de entrada ha de figurar A en la primera línea, después del número de filas y columnas; y se utiliza una segunda línea de cabecera, que se iniciará con la letra A, dejando 10 caracteres y, a continuación, se da el estado que se considera ancestral para cada uno de ellos.

U, Evaluación de árboles: Permite evaluar la calidad de los árboles. Da la media y la varianza de las diferencias en pasos entre árboles, si la media es >1’96, los árboles son significativamente distintos.El archivo de datos ha de contener el archivo original seguido del nº de árboles a evaluar y, en líneas separadas, cada árbol (quitar[cifra]) cerrado con ;

O, enraizar árboles. Por defecto considera que hay grupo externo y toma la primera UE como tal, pero puede cambiarse con esta opción, dando el nº de UE que ocupa en la matriz.

M, opción para usar dos o más grupos de datos. Cada matriz ha de tener su cabecera. Sirve para obtener bootstraps (SEQBOOT) junto con CONSENSUS.

X, sirve para escoger el algoritmo a emplear en cada carácter en algunos programas en que hay dos alternativos (MIX, por ejemplo). El archivo de entrada tendrá M en la primera línea y la segunda tendrá M, también, como primer carácter, seguido de nueve espacios; a continuación se especificará el algoritmo elegido para cada carácter. Al ejecutar el programa, se elige la opción X.

J, revolver o mezclar. Por defecto, el programa toma los grupos en el orden en que se han dado en la matriz de datos. Podemos cambiarlo dando un nº impar y el nº de veces que deseamos que repita el proceso, cambiando el orden de las UEs ==> nos dará solo el mejor árbol que encuentra como resultado.

Opción 4: Da información adicional sobre el árbol: indica el número de pasos en cada sitio. Ej. sitio 13 corresponde a la unión de la segunda fila con la 3ª columna, y tiene 3 pasos

requieres a total of 9.000 steps in each site

* 0 1 2 3 4 5 6 ..... 0! 2 2 2 2 1 110! 1 2 3 1 1 1 120!30!

Opción 5: También da información adicional en la que se pueden seguir los estados de carácter en cada nudo

del árbol. (Alpha, Beta, Gamma, Delta y Epsilon, son UEs en el ejemplo)

From To Any Steps? State upper node (.means...)1 1?011 0

1 2 no .?... .2 4 maybe .0... .4 Epsilon yes 0.1.. .4 Gamma no ...... .2 3 yes .?.00 .3 Delta yes 001.. 13 Beta maybe .1... .1 Alpha maybe .1... .

Ficheros outfile: Contienen los árboles e información adicional.

En los nudos de los árboles aparecen cifras arbitrarias o *. Sirven para identificar cada dicotomía.

El mensaje "remember this is an unrooted tree!" no tiene sentido. Aunque se de grupo externo sigue diciendo que es un árbol no enraizado (=red en Biología)

La longitud de los brazos solamente es real cuando se obtienen con programas que se basan en cálculos de distancias (NEIGHBOR o FITCH).

+pob 5 ! --4 +pob 6 ! ! +pob 1 ! +--1 ! ! +pob 3 +--3 ! +pob 2 +--2 +pob 4

Between And Length------- --- ---------- 4 pob 5 0.00000 4 pob 6 0.00000 4 3 0.00000 3 1 0.00610 1 pob 1 0.00290 1 pob 3 0.00170 3 2 0.00000 2 pob 2 0.00000 2 pob 4 0.00000

Ficheros treefile, contienen la información para dibujar los árboles con el formato de paréntesis. Cada árbol acaba con ;

Los árboles que se obtienen con un programa basado en medidas de distancia, como NEIGHBOR o FITCH, permiten conocer la longitud de las ramas. Así, el árbol anterior, en el treefile, tiene el formato:

(pob5:0.00000,pob6:0.00000,((pob1:0.00290,pob3:0.00170):0.00610,pob2:0.00000,pob4:0.00000):0.00000):0.00000);

y significa que la longitud entre el nudo 4 y las UEs pob5 y pob6 es 0; entre el nudo 4 y el 3 también 0; entre el nudo 3 y el 1 la longitud seria de 0.0061; entre el nudo 1 y la pob1 seria de 0.0029 y entre el nudo 1 y la pob3 de 0.0017; entre el nudo 3 y el 2 seria 0, al igual que entre estas UEs y el nudo 2.

Mensajes de error frecuentes:

“Error allocating memory” significa que el archivo de entrada de datos no es adecuado para Phylip, bien sea por su formato o por el nombre. La solución es abrir dicho archivo y corregir aquello que sea erróneo o inadecuado para el programa (cabecera, formato de datos, texto en el encabezamiento,….) o, simplemente, cambiar el nombre del archivo (por ej. un archivo Treefile no puede usarse directamente, debe cambiarse el nombre sin que el nuevo comience por tre).

Documents

Técnicas Automatizadas de Clasificación y Ordenación Automatizadas... · Web viewPara establecer la clasificación de los seres vivos hay diferentes métodos que permiten aproximaciones