24
Tema 5: Algunos análisis estadísticos con SPSS 5.1. El Análisis Exploratorio de datos en SPSS Antes de aplicar cualquier técnica multivariante es preciso llevar a cabo un análisis previo de los datos que nos indique con qué tipo de datos trabajamos así como las características y propiedades que estos poseen. El análisis de las relaciones entre las variables con las que trabajamos nos permitirá deducir la posibilidad de aplicar o no determinadas técnicas estadísticas multivariantes. Del mismo modo, es necesario examinar los resultados del proceso de recogida de datos, estudiando la presencia de datos anómalos y de datos faltantes. El primer tipo de análisis al que se suele someter a unos datos es el análisis gráfico. Estas técnicas permiten el examen de las características de la distribución de las variables implicadas en el análisis, las relaciones multivariantes entre ellas y el análisis de las diferencias entre grupos. Este tipo de análisis, si bien no proporciona un resultado formal, facilita una forma alternativa a partir de la cual obtener una perspectiva del carácter de los datos y de las interrelaciones que existen. Figura 5.1.1: Análisis exploratorio de datos en SPSS J.W. Tuckey fue uno de los pioneros en la aplicación de los análisis gráficos como paso previo al análisis exploratorio de datos para así visualizar la estructura de estos. Las técnicas gráficas más empleadas son el histograma, el gráfico de tallos y hojas, y los gráficos de cajas y bigotes entre otros. Son varios los procedimientos que ofrece SPSS para realizar cada una de las fases a Página 1 de 24 El Análisis Exploratorio de datos en SPSS 15/10/2008 file://C:\Documents and Settings\Yolanda\Mis documentos\Facultad\Computacional\...

temaSPSS5

Embed Size (px)

Citation preview

Page 1: temaSPSS5

Tema 5:

Algunos análisis estadísticos con SPSS

5.1. El Análisis Exploratorio de datos en SPSS

Antes de aplicar cualquier técnica multivariante es preciso llevar a cabo un análisis previo de los datos que nos indique con qué tipo de datos trabajamos así como las características y propiedades que estos poseen. El análisis de las relaciones entre las variables con las que trabajamos nos permitirá deducir la posibilidad de aplicar o no determinadas técnicas estadísticas multivariantes. Del mismo modo, es necesario examinar los resultados del proceso de recogida de datos, estudiando la presencia de datos anómalos y de datos faltantes.

El primer tipo de análisis al que se suele someter a unos datos es el análisis gráfico. Estas técnicas permiten el examen de las características de la distribución de las variables implicadas en el análisis, las relaciones multivariantes entre ellas y el análisis de las diferencias entre grupos. Este tipo de análisis, si bien no proporciona un resultado formal, facilita una forma alternativa a partir de la cual obtener una perspectiva del carácter de los datos y de las interrelaciones que existen.

Figura 5.1.1: Análisis exploratorio de datos en SPSS

J.W. Tuckey fue uno de los pioneros en la aplicación de los análisis gráficos como paso previo al análisis exploratorio de datos para así visualizar la estructura de estos. Las técnicas gráficas más empleadas son el histograma, el gráfico de tallos y hojas, y los gráficos de cajas y bigotes entre otros.

Son varios los procedimientos que ofrece SPSS para realizar cada una de las fases a

Página 1 de 24El Análisis Exploratorio de datos en SPSS

15/10/2008file://C:\Documents and Settings\Yolanda\Mis documentos\Facultad\Computacional\...

Page 2: temaSPSS5

destacar dentro del análisis exploratorio.

5.1.1. Descripción numérica de los datos

Este tipo de análisis se lleva a cabo desde el menú Analizar/Estadísticos descriptivos de la barra de menús de SPSS. Al hacer esta selección, SPSS ofrece tres opciones diferentes: Descriptivos, Frecuencias y Explorar.

Descriptivos

El procedimiento Descriptivos, tal y como se muestra en la figura, dispone estadísticos de resumen univariados para varias variables en una única tabla y calcula valores tipificados (puntuaciones z).

Las variables se pueden ordenar por el tamaño de sus medias (en orden ascendente o descendente), alfabéticamente o por el orden en el que se seleccionen las variables (el valor predeterminado).

Cuando se guardan las puntuaciones z, estas se añaden a los datos del Editor de datos y quedan disponibles para los gráficos, la lista de los datos y los análisis. Cuando las variables se registran en unidades diferentes (por ejemplo, producto interior bruto per cápita y porcentaje de alfabetización), una transformación de puntuación z pondrá las variables en una escala común para poder compararlas visualmente con más facilidad.

Figura 5.1.1.1: Obtención interactiva del análisis Descriptivos de SPSS

A continuación puede verse un ejemplo de un fichero de órdenes de SPSS en el que se pide que se calcule la media, desviación típica, el mínimo y el máximo de la variable salario del

Página 2 de 24El Análisis Exploratorio de datos en SPSS

15/10/2008file://C:\Documents and Settings\Yolanda\Mis documentos\Facultad\Computacional\...

Page 3: temaSPSS5

fichero de datos.

Figura 5.1.1.2: Órdenes de un análisis Descriptivo de SPSS

Frecuencias

El procedimiento Frecuencias proporciona estadísticos y representaciones gráficas que resultan útiles para describir muchos tipos de variables. Es un buen procedimiento para una inspección inicial de los datos.

Página 3 de 24El Análisis Exploratorio de datos en SPSS

15/10/2008file://C:\Documents and Settings\Yolanda\Mis documentos\Facultad\Computacional\...

Page 4: temaSPSS5

Figura 5.1.1.3: Obtención interactiva del análisis Frecuencias de SPSS

Para realizar informes de frecuencias y gráficos de barras, se pueden organizar los valores en orden ascendente o descendente u ordenar las categorías por sus frecuencias. Es posible suprimir el informe de frecuencias cuando una variable posee muchos valores diferentes. Se pueden etiquetar los gráficos con las frecuencias (la opción predeterminada) o con los porcentajes.

A continuación se presenta el fichero de órdenes en el que se pide que se calcule la varianza, el máximo y la moda de la variable salario del fichero de datos. Se pide además que se represente el histograma de esta variable con la curva normal y se ordenen los datos en orden ascendente.

Página 4 de 24El Análisis Exploratorio de datos en SPSS

15/10/2008file://C:\Documents and Settings\Yolanda\Mis documentos\Facultad\Computacional\...

Page 5: temaSPSS5

Figura 5.1.1.4: Órdenes de un análisis de Frecuencias de SPSS

Explorar

El procedimiento Explorar genera estadísticos de resumen y representaciones gráficas, bien para todos los casos o bien de forma separada para grupos de casos. Existen numerosas razones para utilizar este procedimiento: para inspeccionar los datos, identificar valores atípicos, obtener descripciones, comprobar supuestos y caracterizar diferencias entre subpoblaciones (grupos de casos). La inspección de los datos puede mostrar que existen valores inusuales, valores extremos, discontinuidades en los datos u otras peculiaridades. La exploración de los datos puede ayudar a determinar si son adecuadas las técnicas estadísticas que está teniendo en consideración para el análisis de los datos. La exploración puede indicar que necesita transformar los datos si la técnica necesita una distribución normal subyacente o que debe utilizar pruebas no paramétricas.

Página 5 de 24El Análisis Exploratorio de datos en SPSS

15/10/2008file://C:\Documents and Settings\Yolanda\Mis documentos\Facultad\Computacional\...

Page 6: temaSPSS5

Figura 5.1.1.5: Obtención interactiva del análisis Explorar de SPSS

A continuación, se muestra un ejemplo de un fichero de órdenes en el que se pide, para la variable salario clasificada según los valores de la variable facultad, la siguiente información: diagramas de cajas y bigotes y tallos y hojas estableciendo comparaciones según los grupos formados y una serie de estimadores robustos.

Página 6 de 24El Análisis Exploratorio de datos en SPSS

15/10/2008file://C:\Documents and Settings\Yolanda\Mis documentos\Facultad\Computacional\...

Page 7: temaSPSS5

Figura 5.1.1.6: Órdenes de un análisis Explorar de SPSS

5.1.2. Descripción gráfica de los datos

La opción Gráficos de SPSS permite el acceso a un gran número de representaciones gráficas entre las que destacamos las siguientes, así como la ruta interactiva para ejecutarlas. En muchos casos, las representaciones gráficas se obtienen también como una opción dentro de los análisis numéricos

Opciones gráficas en SPSS

Página 7 de 24El Análisis Exploratorio de datos en SPSS

15/10/2008file://C:\Documents and Settings\Yolanda\Mis documentos\Facultad\Computacional\...

Page 8: temaSPSS5

Caso unidimensional

Diagramas de caja

Diagrama de tallos y hojas

Histograma

Gráfico de cuantiles. Ordenar los casos de menor a mayor y representar la serie

Presentaciones para colecciones de datos unidimensionales

Contrastes de Bondad de Ajuste

Contrastes de aleatoriedad

Caso Bidimensional

Analizar/Estadísticos descriptivos/Explorar

Gráficos/Diagramas de caja

Analizar/Estadísticos descriptivos/Explorar

Analizar/Estadísticos descriptivos/Explorar Gráficos/Histograma, en el editor de gráficos se puede modificar el número de intervalos considerados o su amplitud utilizando la opción Diseño/Ejes

Gráficos/Secuencia

Gráficos/Diagramas de caja y utilizar la opción Resúmenes para

distintas variables

Analizar/Pruebas no paramétricas/Chi-cuadrado

Analizar/Pruebas no paramétricas/K-S de una muestra

Analizar/Pruebas no paramétricas/Rachas

Página 8 de 24El Análisis Exploratorio de datos en SPSS

15/10/2008file://C:\Documents and Settings\Yolanda\Mis documentos\Facultad\Computacional\...

Page 9: temaSPSS5

Diagramas de puntos

Diagramas de caja agrupados por otra variable

Caso Multidimensional

Gráficos/Dispersión y la opción Simple

Gráficos/Diagramas de caja y la opción Simple y Resúmenes para

grupos de casos

Matrices de dispersión

Cubos Olap

Gráficos/Dispersión y la opción Matricial, Superpuesto o 3-D

Analizar/Informes/Cubos OLAP

Las órdenes para la obtención de algunas de las representaciones gráficas más utilizadas son las siguientes:

BAR , diagrama de barras PIE, diagrama de sectores HISTOGRAM[(NORMAL), histograma SCATTERPLOT, diagrama de dispersión

5.1.3. Diagnosis y tratamiento de datos faltantes

En SPSS se distinguen dos tipos de valores faltantes o perdidos (missing): los valores así definidos por el usuario y los valores definidos desde el sistema.

Los valores definidos por el usuario son valores que se etiquetan para que sean tratados como perdidos, en la Vista de variables, en la columna Perdidos.

Los valores definidos por el sistema corresponden a datos numéricos desconocidos (campos numéricos que están vacíos, resultados de cálculos que no pueden realizarse,...)

SPSS permite utilizar las opciones:

Excluir casos según lista, que trabaja solamente con los casos completos y

Página 9 de 24El Análisis Exploratorio de datos en SPSS

15/10/2008file://C:\Documents and Settings\Yolanda\Mis documentos\Facultad\Computacional\...

Page 10: temaSPSS5

Excluir casos según pareja que trabaja con los casos que están completos para todas las variables que se van a considerar en el análisis concreto.

5.1.4. Localización de datos atípicos (outliers)

SPSS identifica el máximo y el mínimo de cada variable. Para calibrar la importancia del posible outlier es aconsejable trabajar con datos estandarizados y utilizar los gráficos de caja y bigotes (box-plot).

A título de ejemplo, la figura que presentamos a continuación, muestra como obtener de manera interactiva el gráfico de cajas y bigotes de la variable salario según el sexo de los individuos encuestados

5.2. Cubos Olap

Un claro reflejo del avance de las técnicas audiovisuales en el campo de la Estadística, es la exposición y manejo de resultados tras un análisis concreto de los datos. Aún cuando los informes en papel no pierden su protagonismo, cada vez está más generalizado el uso de otros formatos de presentación que permitan un mayor nivel de detalle y flexibilidad. La tecnología OLAP (On-Line Analytical Processing) suple la necesidad de informes dinámicos ad-hoc para facilitar la toma de decisiones.

Los informes OLAP de SPSS son tablas interactivas que se pueden rotar para profundizar en

Página 10 de 24El Análisis Exploratorio de datos en SPSS

15/10/2008file://C:\Documents and Settings\Yolanda\Mis documentos\Facultad\Computacional\...

Page 11: temaSPSS5

la exploración de los datos. Reemplazan los informes estáticos y permiten interactuar con la información contenida en las filas, columnas y capas, así como visualizar distintos niveles de detalle de los datos.

Los sistemas OLAP ofrecen una estructura de los datos en un cubo. Este cubo es multidimensional y ofrece al usuario diferentes alternativas y perspectivas de ver los datos (todas a partir del mismo cubo). Por ejemplo, un cubo OLAP que contiene datos de ventas puede producir resultados como: ventas totales por trimestre, porcentaje de ventas por persona y ventas promedio por región geográfica. Los estadísticos elementales, como sumas, conteos, promedios y porcentajes, también pueden programarse en el cubo. Se puede tener acceso al cubo y ver la vista de los datos utilizando órdenes como slicing, dicing y driling down.

5.2.1. Aportaciones de los informes OLAP

Los informes OLAP ofrecen una amplia serie de beneficios y ventajas sobre los informes estáticos. Entre ellas podemos citar:

Flexibilidad. Los informes OLAP ofrecen una gran variedad de configuraciones

Distribución de la información de forma ágil y rápida. Los informes OLAP están formados por uno o más cubos de informe, gráficos, tablas y otros objetos en un único archivo, lo que permite su distribución a través de la Web de un modo muy sencillo. Tan pronto como se dispone de la información de un informe OLAP, se puede trabajar con otros cubos de informe previamente definidos y completar la información de que se dispone. También se puede acceder a puntos específicos (bookmarks) predefinidos dentro del cubo de informe, asegurando así que los resultados más significativos sean identificados.

Permiten reducciones y/o ampliaciones de la información. Los informes OLAP de SPSS permiten la generación de cubos más específicos en relación con cuestiones concretas. En cualquier momento se pueden añadir o eliminar datos del informe.

Decisiones inteligentes. Los informes OLAP facilitan la toma de decisiones ya que los cubos de informe contienen cálculos que van más allá de los simples conteos, promedios y sumas.

5.2.2. Obrención de cubos OLAP con SPSS

La obtención de cubos OLAP mediante SPSS se hace a partir de la barra de menús, con la

Página 11 de 24El Análisis Exploratorio de datos en SPSS

15/10/2008file://C:\Documents and Settings\Yolanda\Mis documentos\Facultad\Computacional\...

Page 12: temaSPSS5

opción Informes del botón Analizar, tal y como se muestra en la figura.

Figura 5.2.2.1: Obtención de cubos OLAP con SPSS

Cuando se abre el cuadro de diálogo del cubo OLAP, se seleccionan una o más variables de resumen cuantitativas (variables continuas medidas en una escala de intervalo o de razón) y una o más variables de agrupación categóricas, cuyos valores pueden ser numéricos o de cadena corta.

Es posible también

Seleccionar diferentes estadísticos de resumen (botón Estadísticos) Calcular las diferencias existentes entre los pares de variables y los pares de grupos definidos por las variables de agrupación (botón Diferencias). Es posible calcular las diferencias y razones entre todas las variables de resumen o entre los grupos definidos por una variable de agrupación.

Diferencias entre pares de variables. Los valores de los estadísticos de resumen para la segunda variable (Menos variable) de cada par se restan de los valores de los estadísticos de resumen correspondientes a la primera variable del par. En cuanto a las diferencias por razón, el valor de la variable de resumen para la segunda variable es el que se usa como denominador. Para poder especificar las diferencias entre las variables, se deben seleccionar al menos dos variables de resumen en el cuadro de diálogo principal.

Diferencias entre grupos de casos. Calcula las diferencias entre pares de grupos definidos por una variable de agrupación. Los valores de los estadísticos

Página 12 de 24El Análisis Exploratorio de datos en SPSS

15/10/2008file://C:\Documents and Settings\Yolanda\Mis documentos\Facultad\Computacional\...

Page 13: temaSPSS5

de resumen para la segunda categoría de cada par (Menos categoría) se restan de los valores de los estadísticos de resumen correspondientes a la primera categoría del par. Las diferencias por razón utilizan el valor del estadístico de resumen de la categoría Menos como denominador. Para poder especificar las diferencias entre los grupos, se ha de seleccionar una o más variables de agrupación en el cuadro de diálogo principal

Crear títulos de tabla personalizados (botón Título). Se puede cambiar el título de los resultados o añadir un texto al pie que aparecerá debajo de la tabla de resultados. También se puede controlar el ajuste de las líneas de los títulos y de los textos al pie escribiendo \n en el lugar del texto donde se desee insertar una línea de separación.

La siguiente figura ilustra el proceso de obtención de un cubo OLAP.

Figura 5.2.2.2: Pasos a seguir en la obtención de un cubo OLAP en SPSS

5.2.3. Sintaxis de los cubos Olap

Las órdenes para la obtención de cubos OLAP son las siguientes:

OLAP CUBES {varlist} BY varlist [BY...]

Página 13 de 24El Análisis Exploratorio de datos en SPSS

15/10/2008file://C:\Documents and Settings\Yolanda\Mis documentos\Facultad\Computacional\...

Page 14: temaSPSS5

[/CELLS = [MEAN**] [COUNT**] [STDDEV**]

[NPCT**] [SPCT**] [SUM** ]

[MEDIAN] [GMEDIAN] [SEMEAN]

[MIN] [MAX] [RANGE]

[VARIANCE] [KURT] [SEKURT]

[SKEW] [SESKEW] [FIRST] [LAST]

[NPCT(var)][SPCT(var)]

[HARMONIC] [GEOMETRIC]

[DEFAULT]

[ALL] [NONE] ]

[/CREATE [{'catname'}...] = {GAC } (gvarname {(gvarvalue gvarvalue)}

{DEFAULT } {GPC } [{(gvarvalue gvarvalue)...}])]

{GAC GPC}

-- o --

{VAC } {(svarname svarname)}

{VPC } {(svarname svarname)...}

{VAC VPC}

[/TITLE = 'string'][FOOTNOTE = 'string']

La orden OLAP CUBES indica la formación de un cubo Olap a partir de las variables indicadas en la lista de variables. A continuación se indica qué estadísticos se desea que calcule SPSS para resumir las variables con las que se trabaja. La orden /CREATE permite calcular las diferencias y razones entre grupos de datos y variables. Por último las órdenes /TITLE y FOOTNOTE se refieren al título y pie de título de la tabla creada.

5.3. Análisis Cluster con SPSS

El Análisis Cluster surge ante la necesidad de diseñar una estrategia que permita definir grupos de objetos homogéneos, es por tanto una técnica de clasificación.

Podemos definir el Análisis Cluster como una técnica multivariante cuyo principal propósito es agrupar objetos formando conglomerados (clusters) de objetos con un alto grado de homogeneidad interna y heterogeneidad entre objetos.

Página 14 de 24El Análisis Exploratorio de datos en SPSS

15/10/2008file://C:\Documents and Settings\Yolanda\Mis documentos\Facultad\Computacional\...

Page 15: temaSPSS5

El Análisis Cluster es similar al Análisis Factorial en el sentido de que ambos realizan agrupaciones, aunque mientras que el Análisis Cluster agrupa objetos, el Análisis Factorial se centra en la agrupación de variables. Sin embargo, frente a los requisitos previos del Análisis Factorial, el Análisis Cluster se puede considerar una técnica descriptiva y no inferencial que es utilizada habitualmente como una técnica exploratoria. El Análisis Cluster no ofrece soluciones únicas ni siquiera en el caso de que existiera una estructura de clasificación “verdadera” en los datos; las soluciones dependen de las variables consideradas y del método de Análisis Cluster empleado.

Podemos clasificar los objetivos del análisis en los siguientes puntos:

Descripción de una taxonomía (una clasificación de objetos realizada empíricamente), tanto en el sentido exploratorio como en el confirmatorio Simplificación de los datos. La estructura resultante permite simplificar el conjunto de observaciones Identificación de la relación entre las observaciones (relaciones que a priori están ocultas)

Uno de los principales problemas que plantea el Análisis Cluster es el de la selección de variables. La clasificación obtenida tras la aplicación de esta técnica dependerá de las variables elegidas. Dado que la introducción de variables irrelevantes aumenta la posibilidad de errores, se recomienda seleccionar sólo aquellas variables que caracterizan los objetos que se van agrupando, y referentes a los objetivos del Análisis Cluster que se va a realizar. En ocasiones puede ser muy útil realizar un ACP previamente y resumir el conjunto de variables con el que se esté trabajando.

Se han diseñado muchos procedimientos para la obtención de clusters, y en una primera clasificación distinguimos dos:

Procedimientos jerárquicos, en cada paso del algoritmo sólo un objeto cambia de grupo y los grupos están anidados en los de pasos anteriores. Si un objeto ha sido asignado a un grupo ya no cambia más de grupo. Dentro de los procedimentos jerárquicos, distinguimos entre:

Métodos aglomerativos, comienzan con tantos clusters como objetos se vayan a analizar. Cada uno de estos clusters contiene un objeto. En cada paso del algoritmo se recalculan las distancias entre los grupos existentes y se unen los dos grupos más similares o menos disimilares. El algoritmo acaba con un cluster conteniendo todos los elementos Métodos divisivos, comienzan con un cluster que engloba a todos los elementos. En cada paso del algoritmo se divide el grupo más heterogéneo, hasta llegar a formar tantos clusters como objetos participen en el análisis.

Para determinar qué grupos se unen o dividen se utiliza una función objetivo o criterio que, en el caso de los métodos aglomerativos recibe el nombre de enlace.

Procedimientos no jerárquicos, se determina a priori el número de grupos en

Página 15 de 24El Análisis Exploratorio de datos en SPSS

15/10/2008file://C:\Documents and Settings\Yolanda\Mis documentos\Facultad\Computacional\...

Page 16: temaSPSS5

los que se van a clasificar los elementos. Estas técnicas comienzan con una solución inicial y los objetos se reagrupan de acuerdo con algún criterio de optimalidad.

Los métodos jerárquicos con los que trabaja SPSS son

Vinculación intergrupos Vinculación intragrupos Vecino más próximo (Encadenamiento simple) Vecino más lejano (Encadenamiento completo) Agrupación de centroides Vinculación de medianas Método de Ward

El procedimiento no jerárquico con el que trabaja SPSS es el algoritmo de las K-medias.

SPSS presenta también la opción del Análisis de Conglomerados en dos fases en el caso de necesitar agrupar datos mixtos (continuos y categóricos)

Al Análisis Cluster en SPSS se accede desde el menú Analizar de la barra de menús, en la opción Clasificar

Figura 5.3.1: Análisis Cluster en SPSS

A partir de aquí se abre una caja de diálogo en donde se hace la selección de variables y del método apropiado para el análisis.

5.3.1. Procedimentos jerárquicos en SPSS

Se accede a los procedimientos jerárquicos de SPSS a partir del menú

Página 16 de 24El Análisis Exploratorio de datos en SPSS

15/10/2008file://C:\Documents and Settings\Yolanda\Mis documentos\Facultad\Computacional\...

Page 17: temaSPSS5

Analizar/Clasificar/Conglomerados jerárquicos de la barra de menús de SPSS

En las figuras que se presentan a continuación, se ilustra el procedimiento para realizar un análisis jerárquico.

Consideramos el fichero de datos ‘jovenes.sav’, en el que se recoge información de un grupo de 14 estudiantes a los que se pretende clasificar en base al número de veces que van anualmente al fútbol ( variable futbol), la paga semanal que reciben ( variable paga) y el número de horas semanales que ven la televisión (variable tv).

En primer lugar, se seleccionan las variables en las que se basará la clasificación (futbol, paga y tv) y se indica una variable de cadena, id, para identificar los casos.

Figura 5.3.1.1: Análisis Cluster jerárquico en SPSS en modo interactivo

Esta ventana da acceso a diferentes opciones: Gráficos, Estadísticos, Método y Guardar.

La opción Estadísticos, indica cómo solicitar a SPSS los diferentes niveles de fusión de los clusters (historial de conglomeraciones), así como la matriz de distancias. Por otro lado, permite fijar el número de soluciones que queremos aparezcan en el visor de resultados.

Página 17 de 24El Análisis Exploratorio de datos en SPSS

15/10/2008file://C:\Documents and Settings\Yolanda\Mis documentos\Facultad\Computacional\...

Page 18: temaSPSS5

Figura 5.3.1.2:Opción Estadísticos del Análisis Cluster jerárquico en SPSS

La opción Gráficos, muestra las opciones gráficas del Análisis Cluster jerárquico en SPSS: Dendrograma y Diagrama de Témpanos

Figura 5.3.1.2: Opción Gráficos del Análisis Cluster jerárquico en SPSS

La selección del método de conglomeración se hace a partir de la opción Método. En esta ventana se selecciona además la medida utilizada para calcular la distancia entre los clusters así como la posibilidad de trabajar con datos tipificados o no.

Figura 5.3.1.3: Opción Métodos del Análisis Cluster jerárquico en SPSS

Por último, la opción Guardar permite indicar el rango de soluciones que se quieren mantener.

Página 18 de 24El Análisis Exploratorio de datos en SPSS

15/10/2008file://C:\Documents and Settings\Yolanda\Mis documentos\Facultad\Computacional\...

Page 19: temaSPSS5

Figura 5.3.1.4: Opción Guardar del Análisis Cluster jerárquico en SPSS

El conjunto de órdenes asociado a todas estas selecciones se muestran a continuación. En primer lugar, se indican las variables que se van a utilizar para la clasificación y se especifica un fichero de trabajo interno de SPSS que es eliminado al finalizar los cálculos. A continuación, la suborden /VIEW indica que se realiza una agrupación de individuos (casos), utilizando como medida el cuadrado de la distancia euclídea (suborden /MEASURE). Es necesario también, indicar las características del método cluster jerárquico seleccionado.

Figura 5.3.1.5: Órdenes de un Análisis Cluster jerárquico en SPSS

5.3.2. Algoritmo de K-medias en SPSS

Se accede a los procedimientos no jerárquicos de SPSS a partir del menú Analizar/Clasificar/Conglomerados de K-medias de la barra de menús de SPSS.

Siguiendo con el ejemplo anterior, la ventana de SPSS a partir de la cual se accede al análisis de conglomerados de K-medias aparece en la figura

Página 19 de 24El Análisis Exploratorio de datos en SPSS

15/10/2008file://C:\Documents and Settings\Yolanda\Mis documentos\Facultad\Computacional\...

Page 20: temaSPSS5

Figura 5.3.2.1: Análisis Cluster K-medias en SPSS en modo interactivo

Al igual que en el caso anterior, a partir de esta ventana se accede a las diferentes opciones referentes a estadísticos, número de iteraciones a realizar y guardar resultados.

El botón Opciones permite seleccionar los estadísticos que indican la posición de los centros de los conglomerados iniciales, una tabla ANOVA indicativa del ajuste del modelo, si bien esta tabla sólo desempeña un papel orientativo, dado que no tienen fundamento teórico.

Figura 5.3.2.2: Opciones del Análisis Cluster K-medias en SPSS

El botón Iter da acceso a las opciones de convergencia del método. SPSS permite establecer esta convergencia en función de un número fijo de iteraciones o estableciendo un criterio de convergencia concreto.

Figura 5.3.2.3: Criterio de convergencia del Análisis Cluster K-medias en SPSS

Página 20 de 24El Análisis Exploratorio de datos en SPSS

15/10/2008file://C:\Documents and Settings\Yolanda\Mis documentos\Facultad\Computacional\...

Page 21: temaSPSS5

Las órdenes asociadas al análisis que acabamos de describir aparecen en la figura que se presenta a continuación. Al igual que en el caso jerárquico, el código comienza con la especificación de las variables que se van a utilizar para establecer la clasificación de los datos. A continuación se detallan las características del análisis en cuanto al número de clusters con el que se quiere trabajar, número máximo de iteraciones y criterio de convergencia. Por último se especifica el método cluster empleado así como el detalle de la información que se desea guardar.

Figura 5.3.2.4: Órdenes del Análisis Cluster K-medias en SPSS

5.4. Análisis de Regresión en SPSS

El Análisis de Regresión tiene como objetivo estudiar la relación entre variables. Permite expresar dicha relación en términos de una ecuación que conecta una variable de respuesta, Y, con una o más variables explicativas, X1,X2,…,Xk, con el objetivo de determinar explícitamente el funcional que relaciona las variables de entre una familia de funcionales.

Según el número de variables explicativas con que se trabaje, distinguiremos entre Regresión Simple o Múltiple. Y según las funciones que se consideren para el ajuste, hablaremos de

Estimación curvilínea (Lineal, Polinómica, Potencial, Exponencial, Hiperbólica, etc.).

En el caso del modelo lineal se hacen algunas distinciones:

Mínimos cuadrados en dos fases (correlación entre residuos y variables explicativas)

Estimacion ponderada (situación de heterocedasticidad)

Regresión no lineal (Algoritmos de estimación iterativos)

5.4.1. Regresión en SPSS

Página 21 de 24El Análisis Exploratorio de datos en SPSS

15/10/2008file://C:\Documents and Settings\Yolanda\Mis documentos\Facultad\Computacional\...

Page 22: temaSPSS5

Los análisis de regresión se seleccionan pulsando el botón Analizar de la barra de menús y seleccionando la opción Regresión

Figura 5.4.1.1: Análisis de Regresión en SPSS

Según el tipo de datos con el que se trabaje, SPSS distingue diferentes opciones, indicadas en la figura

Regresión lineal múltiple (Lineal) Ajuste de curvas mediante linealización (Estimación curvilínea) Modelos de regresión con respuestas binarias u ordinales (Logística binaria, Logística multinomial, Ordinal, Probit) Modelos de regresión no lineales (No lineal) Correcciones en el modelo lineal (Estimación ponderada, Mínimos cuadrados en dos fases) Modelos de regresión con variables categóricas (Escalamiento óptimo)

A título de ejemplo, consideremos la información referente a un grupo de vehículos. A partir de ella, se pretende ajustar un modelo lineal que permita predecir el consumo (variable consumo) en función del tipo de motor (variable motor), cilindrada (variable cv), peso total (variable peso) y tiempo de aceleración de 0 a 100 km/hora (variable acel) del vehículo. A continuación se muestra la ventana de SPSS que permite seleccionar dicho análisis de regresión en modo interactivo.

Página 22 de 24El Análisis Exploratorio de datos en SPSS

15/10/2008file://C:\Documents and Settings\Yolanda\Mis documentos\Facultad\Computacional\...

Page 23: temaSPSS5

Figura 5.4.1.2: Análisis de Regresión en SPSS en modo interactivo

Las órdenes asociadas a dicho análisis son:

Figura 5.4.1.3: Órdenes de un Análisis de Regresión en SPSS

En el lenguaje de órdenes, el análisis de regresión comienza con la orden REGRESSION.

A continuación se excluyen los valores perdidos y se indica qué estadísticos calcular. En nuestro ejemplo concreto se piden los coeficientes (COEF), variables excluídas de la regresión (OUTS), intervalos de confianza para los coeficientes de la ecuación de regresión (CI), coeficiente de correlación (R), tabla del análisis de la varianza (ANOVA) y cambios en el coeficiente de correlación (CHANGE).

Página 23 de 24El Análisis Exploratorio de datos en SPSS

15/10/2008file://C:\Documents and Settings\Yolanda\Mis documentos\Facultad\Computacional\...

Page 24: temaSPSS5

La suborden /CRITERIA se utiliza para indicar el método de cálculo de los coeficientes de regresión.

/NOORIGIN indica que se suprime el término constante de la ecuación.

Y por último se indica las variables dependiente e independientes, junto con el método empleado para introducir los datos

Página 24 de 24El Análisis Exploratorio de datos en SPSS

15/10/2008file://C:\Documents and Settings\Yolanda\Mis documentos\Facultad\Computacional\...