33
Curso Intensivo de Postgrado. UACH. México 2012. Fernando González Andrés. 1 GUÍA RÁPIDA DEL PROGRAMA SPSS ver. 13.0 a 15.0 Programa para estudios estadísticos en general, muy completo pero de fácil manejo.

Cluster y Cp en Spss

Embed Size (px)

Citation preview

Page 1: Cluster y Cp en Spss

Curso Intensivo de Postgrado. UACH. México 2012. Fernando González Andrés.

1

GUÍA RÁPIDA DEL PROGRAMA SPSS ver. 13.0 a 15.0

Programa para estudios estadísticos en general, muy completo pero de fácil manejo.

Page 2: Cluster y Cp en Spss

Curso Intensivo de Postgrado. UACH. México 2012. Fernando González Andrés.

2

Page 3: Cluster y Cp en Spss

Curso Intensivo de Postgrado. UACH. México 2012. Fernando González Andrés.

3

1. PREPARACIÓN DE LA MATRIZ BÁSICA DE DATOS. Pg. 5

2. ESTANDARIZACIÓN DE LA MATRIZ BÁSICA DE DATOS. Pg. 73. ANÁLISIS DE COMPONENTES PRINCIPALES (DATOS CUANTITATIVOS). Pg. 9

3.1. Obtención de los componentes principales sin rotar y rotados y el gráfico de saturaciones factoriales. Pg. 9

3.2. Proyección de cada una de las UBC sobre los tres o dos primeros componentes principales.Pg. 14

4. ANÁLISIS DE AGRUPAMIENTOS PARA DATOS MULTI-ESTADO. Pg. 174.1. Agrupamiento en base a todos los caracteres analizados cuando estos son de tipo multiestado

cualittativo o cuantitativos: Calcular y dibujar el dendrograma. Pg. 174.2. Agrupamiento en base a los primeros componentes principales (los que recogen una mayor

variabilidad): Calcular y dibujar el dendrograma. Pg.25 4.3. Realizar un ANOVA para comprobar si los valores medios de cada cluster para cada carácter son significativamente diferentes. Pg. 26

4.3.1. Creación de una nueva variable en la Matriz Básica de Datos con el número de conglomerado al que pertenece cada UBC. Pg. 26

4.3.2. Realización del ANOVA tomando como variable dependiente el conglomerado depertenencia y como variables independientes todos los caracteres analizados.

Pg. 275. ANÁLISIS DE AGRUPAMIENTOS PARA DATOS DOBLE-ESTADO: CALCULAR Y DIBUJAR EL

DENDROGRAMA. Pg. 32

INDICE DEL CONTENIDO

Page 4: Cluster y Cp en Spss

Curso Intensivo de Postgrado. UACH. México 2012. Fernando González Andrés.

4

Page 5: Cluster y Cp en Spss

Curso Intensivo de Postgrado. UACH. México 2012. Fernando González Andrés.

51. PREPARACIÓN DE LA MATRIZ BÁSICA DE DATOS.El programa SPSS puede importar directamente matrices del programa Excel. La matriz no precisa codificación especial.Sin embargo es importante que las variables (=caracteres) figuren en las columnas y los casos (=UBC) en las filas.

La importación se realiza mediante los menús desplegables de SPSS como se muestra a continuación.

UBC

Page 6: Cluster y Cp en Spss

Curso Intensivo de Postgrado. UACH. México 2012. Fernando González Andrés.

6

Una vez presionado “Abrir” se obtiene el “Editor de datos” que presenta dos pantallas, la primera es la vista de datos, ...

UBC

Page 7: Cluster y Cp en Spss

Curso Intensivo de Postgrado. UACH. México 2012. Fernando González Andrés.

7

... y la segunda es la vista de variables

2. ESTANDARIZACIÓN DE LA MATRIZ BÁSICA DE DATOS.

Si fuese necesario estandarizar la matriz de datos, la estandarización se haría por caracteres, ya que lo que se pretende es que los valores de todos los caracteres varíen entre los mismos límites.

La estandarización más habitual consiste en convertir cada valor en su puntuación típica, es decir, restarle el valor medio y dividirlo por su desviación típica. Para hacerlo de forma automática se utilizará el módulo de “Estadísticos descriptivos”, al que se accede a través del menú deplegable “Analizar”. Dentro de dicho módulo seabrirá el subprograma “Descriptivos”(Ver las figuras siguientes).

UBC

Page 8: Cluster y Cp en Spss

Curso Intensivo de Postgrado. UACH. México 2012. Fernando González Andrés.

8

La pantalla que se obtiene es la que se presenta a continuación.

Page 9: Cluster y Cp en Spss

Curso Intensivo de Postgrado. UACH. México 2012. Fernando González Andrés.

9

3. ANÁLISIS DE COMPONENTES PRINCIPALES (DATOS CUANTITATIVOS).3.1. Obtención de los componentes principales sin rotar y rotados y el gráfico de saturaciones

factoriales.En SPSS el ACP se encuentra dentro del módulo “Reducción de datos”, al que se accede a través del menú desplegable “Analizar, en el subprograma “Análisis factorial”.

Las variables que se utilizan en el análisis factorial son los caracteres estandarizados o normalizados.

La pantalla que se obtiene es la que se presenta a continuación.

Si se precisan otros tipos de transformaciones de variables, como por ejemplo una transformación logarítmica, el consejo es realizar dichas transformaciones en MS Excel, y luego importar con SPSS el archivo resultante. Esto reduce las necesidades de aprendizaje de un nuevo programa.

Page 10: Cluster y Cp en Spss

Curso Intensivo de Postgrado. UACH. México 2012. Fernando González Andrés.

10

Presionando el botón de “Extracción” es preciso indicar• En “Método”: El método factorial a utilizar: En este caso componentes principales.• En “Analizar” debe elegirse si se quiere trabajar con la matriz de correlaciones entre caracteres

o con la de varianzas-covarianzas.• En “Mostrar”: Si se desea que la salida del programa muestre la solución factorial antes de la

rotación y el gráfico de sedimentación.• En “Extraer”: El número de factores principales que se desea que extraiga el programa, que

puede estar en función de sus autovalores (eiguen-valores) o puede ser un número fijo.

Page 11: Cluster y Cp en Spss

Curso Intensivo de Postgrado. UACH. México 2012. Fernando González Andrés.

11

El botón de “Rotación” sirve para realizar una rotación de los Componentes Principales, en el caso en que se quiera realizar. Si así fuera es preciso indicar:

• En “Método”: El método de rotación de los ejes más habitual y que sigue dejando los ejes ortogonales es el Varimax.

• En “Mostrar”: Si se desea que la salida del programa muestre la solución rotada y el gráfico de proyección de los caracteres sobre los componentes principales, que es lo que se denomina “Gráfico de saturaciones”. Si en “Extraer” (ver figura anterior) se indicó que se extrajeran 3 o más componentes el gráfico será 3-D; para 2 componentes será 2-D.

Presionando el botón de “Puntuaciones” se puede solicitar que para cada Unidad Básica de Caracterización (o caso) el programa guarde las coordenadas de sus proyecciones sobre los componentes principales. Para ello hay que activar la casilla “Guardar como variables”. Es necesario seleccionar el método para obtener las puntaciones factoriales.Sí en el apartado “Rotación” se solicitó del programa algún tipo de rotación, entonces las puntuaciones factoriales guardadas como variables serán los referidos a los componentes rotados.

Page 12: Cluster y Cp en Spss

Curso Intensivo de Postgrado. UACH. México 2012. Fernando González Andrés.

12

En la pantalla de Resultados (pagina siguiente) la información que más nos interesa es la siguiente:

• Comunalidades: Las comunalidades más bajas correspondesa a aquellas variables peor explicadas por el análisis.

• Varianza total explicada: Nos da información de los eiguen-valores de cada uno de los componentes principales.

• Gráfico de sedimentación: Explica como van disminuyendo los eiguen-valores de los componentes principales.

• Matriz de componentes: Da la información sobre los eiguen-vectores de cada carácter sobre cada uno de los componentes principales.

• Matriz de componentes rotados: Idem al caso anterior pero para los componentes rotados.• Gráfico de componentes de los factores 1, 2, 3: Proyecciones de los caracteres sobre los

primeros componentes principales (máximo 3).

Una vez realizadas las operaciones anteriores, para la ejecución del análisis se presionará el botón “Aceptar”, como se indica en la siguiente figura.

Page 13: Cluster y Cp en Spss

Curso Intensivo de Postgrado. UACH. México 2012. Fernando González Andrés.

13

Page 14: Cluster y Cp en Spss

Curso Intensivo de Postgrado. UACH. México 2012. Fernando González Andrés.

14

3.2. Proyección de cada una de las UBC sobre los tres o dos primeros componentes principales.

A partir de la versión 15 se han mejorado los gráficos y la interfaz es ahora la que se presenta a continuación.

Los gráficos interactivos son completamente intuitivos y de muy fácil manejo.

Sin embargo la versión 15.0 mantiene lo que denomina “Cuadros de diálogos antiguos” que es la que se va a analizar a continuación, para el caso de usuarios que utilicen versiones anteriores

Page 15: Cluster y Cp en Spss

Curso Intensivo de Postgrado. UACH. México 2012. Fernando González Andrés.

15

Para obtener un diagrama tridimensinal de las UBC, en los “Gráficos antiguos” de SPSS, es preciso acceder al submenú “Dispersión/puntos”.

Dentro del subprograma “Dispersion/puntos” se elegirá “Dispersión 3-D”.

En el cuadro de diálogo resultante habrá que introducir las puntuaciones factoriales de cada UBC (=caso) sobre los 3 primeros componentes principales. Para llevar a cabo esta acción, es preciso introducir en cada uno de los ejes las nuevas variables (columnas) creadas por el programa, tal como se indica en la figura de la página siguiente.

Page 16: Cluster y Cp en Spss

Curso Intensivo de Postgrado. UACH. México 2012. Fernando González Andrés.

16

Tras presionar el botón “Aceptar” en la pantalla de la figura anterior, la página de resultados es la siguiente.

Aquí se introduce la variable que lleva los nombre asignado a las UBC

Page 17: Cluster y Cp en Spss

Curso Intensivo de Postgrado. UACH. México 2012. Fernando González Andrés.

17

Si lo que se pretende es realizar un diagrama bidimensional, dentro del subprograma “Dispersión/puntos” se elegirá “Dispersión matricial”, y se procederá de forma análoga.

4. ANÁLISIS DE AGRUPAMIENTOS PARA DATOS MULTI-ESTADO.4.1. Agrupamiento en base a todos los caracteres analizados cuando estos son de tipo

multiestado cualitativo o cuantitativos: Calcular y dibujar el dendrograma (puede ser necesario estandarizar o normalizar variables).En SPSS el Análisis de Agrupamientos se encuentra dentro del módulo “Clasificar”, al que se accede a través del menú desplegable “Analizar”. Lo normal en caracterización de germoplasma es usar el método de conglomerados jerárquicos, que se encuentra en el subprograma “Conglomerados jerárquicos” (ver figura siguiente).

Page 18: Cluster y Cp en Spss

Curso Intensivo de Postgrado. UACH. México 2012. Fernando González Andrés.

18

La pantalla que se obtiene se presenta en la siguiente figura.

• Lo primero es indicar cuales son las variables utilizadas para la conglomeración, y la variable que va a proporcionar las etiquetas de los casos.

• Es preciso señalar si se quieren conglomerar casos o variables.

• También debe señalarse si se desea que la salida del programa muestre los Estadísticos y los Gráficos.

UBC

Page 19: Cluster y Cp en Spss

Curso Intensivo de Postgrado. UACH. México 2012. Fernando González Andrés.

19

Presionando el botón de “Estadísticos” es preciso señalar:• “Historial de conglomeración” si se desea conocer como se forma el dendrograma• “Matriz de distancias” si se desea que el programa la muestre.• En “Conglomerado de pertenencia” se puede señalar si se quiere que para cada UBC (= caso)

el programa le asigne un conglomerado de pertenencia. Si se indica “Solución única”, es preciso señalar el número de conglomerados que quieren considerarse. Con la opción “Rango de soluciones” el programa realiza una optimización. Dado que se trabaja con material biológico, no parece adecuado que un algoritmo decida por el investigador, Por ello es preferible analizar primero el dendrograma obtenido, y luego volver a realizar el análisis e indicar ya el número de conglomerados que el investigador desee considerar.

UBC

UBC

Page 20: Cluster y Cp en Spss

Curso Intensivo de Postgrado. UACH. México 2012. Fernando González Andrés.

20

Presionando el botón de “Gráficos” es preciso señalar:• “Dendrograma” si se desea que el programa lo muestre.

Presionando el botón de “Método” es preciso señalar:• “Método de conglomeración” El método de Ligamiento Promedio en SPSS recibe el nombre

de “Vinculación inter-grupos”.

Page 21: Cluster y Cp en Spss

Curso Intensivo de Postgrado. UACH. México 2012. Fernando González Andrés.

21

• En “Medida” hay que indicar el coeficiente a utilizar para el cálculo de la matriz de distancias.

Los coeficientes a utilizar en el caso de matrices de datos multi-estado figuran en el apartado “Intervalo”.Los coeficientes a utilizar en el caso de matrices de datos doble-estado figuran en el apartado “Binaria”.

• “Transformar valores” sirve para realizar la estandarización de las variables. Hay diferentes opciones de estandarización, la más habitual es la obtención de Puntuaciones Z

Presionando el botón de “Guardar...” es posible que el programa guarde el número de conglomerado de pertenencia de cada UBC como una nueva variable (ver discusión de la página 16). Esto es útil para realizar ulteriores análisis como por ejemplo un análisis de varianza para detectar las diferencias entre los valores medios de cada conglomerado para cada carácter.

Page 22: Cluster y Cp en Spss

Curso Intensivo de Postgrado. UACH. México 2012. Fernando González Andrés.

22

En la pantalla de Resultados (pagina siguiente) la información que más nos interesa es la se indica a continaución:•Matriz de distancias.•Dendrograma.

Una vez realizadas las operaciones anteriores, para ejecutar el análisis se presionará el botón “Aceptar”, como se indica en la siguiente figura.

UBC

UBC

Page 23: Cluster y Cp en Spss

Curso Intensivo de Postgrado. UACH. México 2012. Fernando González Andrés.

23

El dendrograma puede editarse haciendo doble click sobre el mismo.

Para evitar que salga cortado en los casos en los que es muy largo, hay que ralizar algunos cambios en el módulo “Opciones” del menú desplegable “Edición”-

Page 24: Cluster y Cp en Spss

Curso Intensivo de Postgrado. UACH. México 2012. Fernando González Andrés.

24

Page 25: Cluster y Cp en Spss

Curso Intensivo de Postgrado. UACH. México 2012. Fernando González Andrés.

25

4.2. Agrupamiento en base a los primeros componentes principales (los que recogen una mayor variabilidad): Calcular y dibujar el dendrograma.

El cálculo de la matriz de similitud se hará en este caso a partir de la matriz de proyección de las UBC sobre el número de componentes principales que el investigador quiera considerar, que en este caso harán las veces de caracteres. SPSS denomina a dichas proyecciones “Puntuaciones factoriales”. Para poder utilizarlas ahora es preciso haberlas guardado en el ACP (apartado 3.1. Pg. 9).

El número de Componentes Principales a utilizar debe ser definido por el investigador. Por ejemplo el bastante común utilizar los que presentan eiguen-valores mayores que 1.

Los pasos a realizar en el análisis son los ya descritos en el punto 4.1. (Pags. 14 a 20), pero con las siguientes variaciones:

• Las variables (=caracteres) serán ahora las puntuaciones factoriales del ACP, que si se solicitó al programa que las guardara lo habrá hecho bajo el nombre REGRfactorscore#for analysis, haciendo alusión al método utilizado para el cálculo de las puntuaciones (REGR) y al número de Componente Principal respecto al que se ha realizado la proyección (#)

UBC

UBC

Page 26: Cluster y Cp en Spss

Curso Intensivo de Postgrado. UACH. México 2012. Fernando González Andrés.

26

• Otra variación es que en el cuadro de diálogo que aparece al presionar el botón “Método” en “Transformar variables” ahora no hay que hacer ningún tipo de transformación, ya que las nuevas variables no lo precisan.

4.3. Realizar un ANOVA para comprobar si los valores medios de cada cluster para cada carácter son significativamente diferentes.4.3.1. Creación de una nueva variable en la Matriz Básica de Datos con el número de conglomerado al que pertenece cada UBC.La primera condición es que a la hora de realizar el Análisis de Conglomerados, se haya solicitado, tras presionar el botón “Guardar...”, la creación en la Matriz Básica de Datos de una nueva variable que es el número de conglomerado de pertenencia de cada UBC (Pg 18).La figura siguiente resume los pasos a realizar.

Page 27: Cluster y Cp en Spss

Curso Intensivo de Postgrado. UACH. México 2012. Fernando González Andrés.

27

4.3.2. Realización del ANOVA tomando como variable dependiente el conglomerado depertenencia y como variables independientes todos los caracteres analizados.En SPSS el Análisis de Varianza de un factor encuentra dentro del módulo “Reducción de datos”, al que se accede a través del menú desplegable “Analizar”, en el subprograma “Análisis factorial”.

UBC

Page 28: Cluster y Cp en Spss

Curso Intensivo de Postgrado. UACH. México 2012. Fernando González Andrés.

28

La pantalla que se obtiene es la que se presenta a continuación:

UBC

Esta es la nueva variable que indica el conglomerado de

pertenencia UBC

Page 29: Cluster y Cp en Spss

Curso Intensivo de Postgrado. UACH. México 2012. Fernando González Andrés.

29

Presionando el botón de “Opciones ...” es preciso señalar:• En “Estadísticos”:

Descriptivos para obtener los estadísticos descriptivos.Prueba de homogeneidad de la varianza.Si hubiera que rechazar la hipótesis de igualdad de varianzas habría que señalar Brown-Forsythe para utilizarlo en lugar del valor F cuando las varianzas son desiguales.

Presionando el botón de “Post-Hoc” es preciso señalar las pruebas post-hoc que se quiere que realice el programa:

• Asumiendo varianzas iguales la más aconsejada es la de Tukey.• Si no se pudieran asumir varianzas iguales, estaría aconsejada la prueba de Games-Howell

Page 30: Cluster y Cp en Spss

Curso Intensivo de Postgrado. UACH. México 2012. Fernando González Andrés.

30

Nota importante: Para que puedan realizarse las pruebas Post-Hoc es necesario que todos y cada uno de los grupos tenga al menos dos casos.

Una vez realizadas las operaciones anteriores, para la realización del análisis se presionaráel botón “Aceptar”, como se indica en la siguiente figura.

En la pantalla de Resultados (pagina siguiente) la información que más nos interesa es la siguiente:

• Descriptivos: Incluye los estadísticos descriptivos.• Prueba de homogeneidad de varianzas: Resultados de la prueba de Levene para la

homogeneidad de varianzas. Si no se rechaza la hipótesis nula entonces las varianzas son homogéneas.

• ANOVA: Es la tabla del ANOVA.• Pruebas post-hoc: Presenta el resultado de las pruebas post-hoc. Algunas de las pruebas

post-hoc, como por ejemplo Tukey, hacen grupos homogéneos, que es lo que se presenta en el subapartado “Subconjuntos homogéneos”.

UBC

Page 31: Cluster y Cp en Spss

Curso Intensivo de Postgrado. UACH. México 2012. Fernando González Andrés.

31

Page 32: Cluster y Cp en Spss

Curso Intensivo de Postgrado. UACH. México 2012. Fernando González Andrés.

32

• En el cuadro de diálogo que aparece al presionar el botón “Método” en “Medida” hay que indicar el coeficiente a utilizar para el cálculo de la matriz de distancias. Al tratarse de matrices de datos doble-estado debe utilizarse uno de los coeficientes que figuran en elapartado “Binaria”.

5. ANÁLISIS DE AGRUPAMIENTOS PARA DATOS DOBLE-ESTADO: CALCULAR Y DIBUJAR EL DENDROGRAMA.

Los pasos a realizar en el análisis son los ya descritos en el punto 4.1. (Pags. 14 a 20), pero con las siguientes variaciones:

UBC

UBC

Page 33: Cluster y Cp en Spss

Curso Intensivo de Postgrado. UACH. México 2012. Fernando González Andrés.

33