29
  ANALISIS DE CLUSTER CON SPSS: INMACULADA BARRERA

Analisis de Cluster Con SPSS

Embed Size (px)

Citation preview

Page 1: Analisis de Cluster Con SPSS

5/17/2018 Analisis de Cluster Con SPSS - slidepdf.com

http://slidepdf.com/reader/full/analisis-de-cluster-con-spss 1/29

 

 ANALISIS DE CLUSTER 

CON SPSS: 

INMACULADA BARRERA

Page 2: Analisis de Cluster Con SPSS

5/17/2018 Analisis de Cluster Con SPSS - slidepdf.com

http://slidepdf.com/reader/full/analisis-de-cluster-con-spss 2/29

 

 ANALISIS DE CLUSTER EN SPSS

Opción: Analizar Clasificar

Page 3: Analisis de Cluster Con SPSS

5/17/2018 Analisis de Cluster Con SPSS - slidepdf.com

http://slidepdf.com/reader/full/analisis-de-cluster-con-spss 3/29

 

 ANALISIS DE CLUSTER EN SPSS

Tres posibles OPCIONES

1.- Cluster en dos etapas

2.- K-means

3.- Jerárquicos

 

Page 4: Analisis de Cluster Con SPSS

5/17/2018 Analisis de Cluster Con SPSS - slidepdf.com

http://slidepdf.com/reader/full/analisis-de-cluster-con-spss 4/29

 ANALISIS DE CLUSTER EN SPSS

1.- Cluster en dos etapas Cluster en dos etapas .- está pensado para

minería de datos, es decir para estudios con unnúmero de individuos grande que pueden tenerproblemas de clasificación con los otros

procedimientos. Otra peculiaridad es que permite trabajar

conjuntamente con variables de tipo mixto (cuali

y cuantitativas). Puede realizarse cuando elnúmero de cluster es conocido a priori ytambién cuando no se conoce.

 

Page 5: Analisis de Cluster Con SPSS

5/17/2018 Analisis de Cluster Con SPSS - slidepdf.com

http://slidepdf.com/reader/full/analisis-de-cluster-con-spss 5/29

 ANALISIS DE CLUSTER EN SPSS

2.- Cluster no jerárquicos Cluster no jerárquicos  .- sólo puede

ser aplicado a variables cuantitativas yrequiere conocer el número de cluster apriori.

Puede realizarse para un número deobjetos relativamente grande pues no

requiere el cálculo de todas las posiblesdistancias.

 

Page 6: Analisis de Cluster Con SPSS

5/17/2018 Analisis de Cluster Con SPSS - slidepdf.com

http://slidepdf.com/reader/full/analisis-de-cluster-con-spss 6/29

 ANALISIS DE CLUSTER EN SPSS

3.- Jerárquicos.Jerárquicos.- - 

Para variables cuantitativas o bien para

variables cualitativas Si no se conoce el número de cluster a

priori y cuando el número de objetos no

es muy grande.

 

Page 7: Analisis de Cluster Con SPSS

5/17/2018 Analisis de Cluster Con SPSS - slidepdf.com

http://slidepdf.com/reader/full/analisis-de-cluster-con-spss 7/29

CLUSTER JERÁRQUICOS.-

El primer paso es la selección de variables:

Como se observa pueden etiquetarse los grupos con una delas variables del fichero.También es posibles realizar conglomerados no para objetos sino paravariables, (agrupar variables por el parecido que presentan en las

respuestas de los individuos)

 

Page 8: Analisis de Cluster Con SPSS

5/17/2018 Analisis de Cluster Con SPSS - slidepdf.com

http://slidepdf.com/reader/full/analisis-de-cluster-con-spss 8/29

CLUSTER JERÁRQUICOS.- OPCIÓN METODO: -Podremos estandarizar las variables

utilizadas en el análisis antes deutilizarlas el cálculo de las similaridadessi fuese necesario. Los métodos

disponibles son varios. -Permite seleccionar la medida usada

para ver el parecido entre individuos condistintas distancias dependiendo si lavariable es binaria, frecuencias o deintervalo.

-Es posible también elegir el método paraobtener los conglomerados Todos losvistos .

Los dos primeros vinculación Inter.-grupos y dentro de grupos secorresponde a la opción denominadaUPGMA (método del promedio) y unavariante de este donde se consideranpara el cálculo de la distancia media lacorrespondiente a todos los posiblespares del grupo resultante y no sólo a losformados con un elemento de cada grupocomo en el anterior.

 

Page 9: Analisis de Cluster Con SPSS

5/17/2018 Analisis de Cluster Con SPSS - slidepdf.com

http://slidepdf.com/reader/full/analisis-de-cluster-con-spss 9/29

ESTANDARIZAR 

 

Page 10: Analisis de Cluster Con SPSS

5/17/2018 Analisis de Cluster Con SPSS - slidepdf.com

http://slidepdf.com/reader/full/analisis-de-cluster-con-spss 10/29

MEDIDA

 

Page 11: Analisis de Cluster Con SPSS

5/17/2018 Analisis de Cluster Con SPSS - slidepdf.com

http://slidepdf.com/reader/full/analisis-de-cluster-con-spss 11/29

METODO

 

Page 12: Analisis de Cluster Con SPSS

5/17/2018 Analisis de Cluster Con SPSS - slidepdf.com

http://slidepdf.com/reader/full/analisis-de-cluster-con-spss 12/29

CLUSTER JERÁRQUICOS.-

OPCIÓN ESTADISTICOS OPCIÓN ESTADISTICOS : : 

Historial Historial muestra los casos oconglomerados combinadosen cada etapa, las distanciasentre los casos combinados y

el último nivel del proceso deaglomeración en el que cadacaso se unió al conglomeradocorrespondiente

 

Page 13: Analisis de Cluster Con SPSS

5/17/2018 Analisis de Cluster Con SPSS - slidepdf.com

http://slidepdf.com/reader/full/analisis-de-cluster-con-spss 13/29

CLUSTER JERÁRQUICOS.-

OPCIÓN ESTADISTICOS OPCIÓN ESTADISTICOS : : 

Matriz distancias Matriz distancias 

Conglomerado de pertenencia Conglomerado de pertenencia nos da el conglomerado al que seasigna cada caso pudiendo elegirentre una única solución o un

rango de soluciones En el ejemplohemos seleccionado entre 2 y 3cluster.

 

Page 14: Analisis de Cluster Con SPSS

5/17/2018 Analisis de Cluster Con SPSS - slidepdf.com

http://slidepdf.com/reader/full/analisis-de-cluster-con-spss 14/29

CLUSTER JERÁRQUICOS.-

OPCIÓN GRÁFICOS OPCIÓN GRÁFICOS Permite obtener eldendrograma y los vertical

u horizontal icicle plots, odiagramas de témpanos..

 

Page 15: Analisis de Cluster Con SPSS

5/17/2018 Analisis de Cluster Con SPSS - slidepdf.com

http://slidepdf.com/reader/full/analisis-de-cluster-con-spss 15/29

0

1

2

3

4

5

6

7

        d        i      s       t      a      n

      c        i      a

1 2 3 4 5objetoCluster A

Cluster B

Cluster C

0

1

2

3

4

5

6

7

        d        i      s       t      a      n      c        i      a

1 2 3 4 5

objeto

Cluster 1

Cluster 2

0

1

2

3

4

5

6

7

        d        i      s       t      a      n

      c        i      a

1 2 3 4 5

objetoCluster 1

Cluster 2

Cluster 3

CLUSTER JERÁRQUICOS.-

 

Page 16: Analisis de Cluster Con SPSS

5/17/2018 Analisis de Cluster Con SPSS - slidepdf.com

http://slidepdf.com/reader/full/analisis-de-cluster-con-spss 16/29

CLUSTER JERÁRQUICOS.-

OPCIÓN GUARDAR OPCIÓN GUARDAR  Permite guardar los

conglomerados depertenencia para una

solución única o para unrango de soluciones. Lasvariables guardadaspueden emplearse enanálisis posteriores paraexplorar otras diferenciasentre grupos.

 

Page 17: Analisis de Cluster Con SPSS

5/17/2018 Analisis de Cluster Con SPSS - slidepdf.com

http://slidepdf.com/reader/full/analisis-de-cluster-con-spss 17/29

PROCEDIMIENTO K-MEANS

Una vez seleccionadas las variables y determinado el número de conglomeradosque deseamos obtener podemos elegir entre iterar y clasificar o sólo clasificar.

Para obtener máxima eficacia, podemos tomar una muestra de casos utilizar elmétodo iterar y clasificar para determinar los centros de los conglomerados.Seleccionamos escribir finales en archivo .Después repetimos el análisis con sólo clasificar leyendo los iniciales del archivo anterior 

 

Page 18: Analisis de Cluster Con SPSS

5/17/2018 Analisis de Cluster Con SPSS - slidepdf.com

http://slidepdf.com/reader/full/analisis-de-cluster-con-spss 18/29

PROCEDIMIENTO K-MEANS

OPCIÓN ITERAR OPCIÓN ITERAR  Para la opción iterar se puede

determinar el número máximo deiteraciones, o bien fijar un criterio de

convergencia mayor de cero y menor deuno.

La opción usar medias actualizadasrecalcula centroides con cada individuo

asignado al grupo, sino deseleccionaesta opción no se recalculan hasta que

todos los individuos están asignados.

 

Page 19: Analisis de Cluster Con SPSS

5/17/2018 Analisis de Cluster Con SPSS - slidepdf.com

http://slidepdf.com/reader/full/analisis-de-cluster-con-spss 19/29

PROCEDIMIENTO K-MEANS

Opción guardar Opción guardar  permite crear una nueva

variable que indica para cada

caso el conglomerado al quepertenece y si se quiere otravariable con la distancia entre

cada caso y su centro declasificación.

 

Page 20: Analisis de Cluster Con SPSS

5/17/2018 Analisis de Cluster Con SPSS - slidepdf.com

http://slidepdf.com/reader/full/analisis-de-cluster-con-spss 20/29

PROCEDIMIENTO K-MEANS

BOTÓN OPCIONES BOTÓN OPCIONES 

Centros iniciales de los conglomerados

Conglomerado

1 2 3

Cereales

40,10 56,70 18,60

Feculas 4,00 1,10 5,20

frutossecos 5,40 3,70 1,50

frutasverduras 4,20 4,20 3,80

29,69814,8643

29,69814,9252

14,86414,9251

321Conglomerado

Distancias entre los centros de los conglomerados finales

 

Page 21: Analisis de Cluster Con SPSS

5/17/2018 Analisis de Cluster Con SPSS - slidepdf.com

http://slidepdf.com/reader/full/analisis-de-cluster-con-spss 21/29

PROCEDIMIENTO K-MEANS

BOTÓN OPCIONES BOTÓN OPCIONES 

Las pruebas F sólo se deben utilizar con una finalidad descriptiva puesto que losconglomerados han sido elegidos para maximizar las diferencias entre los casos endiferentes conglomerados. Los niveles críticos no son corregidos, por lo que no puedeninterpretarse como pruebas de la hipótesis de que los centros de los conglomerados son

iguales.

Conglomerado Error

Media

cuadrática gl

Media

cuadrática

gl

F

Sig.

,589,542223,38321,832frutasverduras

,0125,429222,880215,636frutossecos

,0244,426222,07729,194Feculas

,000120,7272210,97221324,656Cereales

ANOVA

 

Page 22: Analisis de Cluster Con SPSS

5/17/2018 Analisis de Cluster Con SPSS - slidepdf.com

http://slidepdf.com/reader/full/analisis-de-cluster-con-spss 22/29

PROCEDIMIENTO K-MEANS

BOTÓN OPCIONES BOTÓN OPCIONES 

Número de casos en cada conglomerado

1 7,000

2 3,000

3 15,000

Válidos 25,000

Perdidos ,000

Conglomerado

   

Page 23: Analisis de Cluster Con SPSS

5/17/2018 Analisis de Cluster Con SPSS - slidepdf.com

http://slidepdf.com/reader/full/analisis-de-cluster-con-spss 23/29

PROCEDIMIENTO DE CLUSTER 

EN DOS PASOS Está basado en un algoritmo que produce resultados

óptimos si todas las variables son independientes, lascontinuas normalmente distribuidas y las categóricasmultinomiales, pero funciona razonablemente bien enausencia de estos supuestos.

La solución final depende del orden de entrada de los datos.Para minimizar el efecto habríamos de ordenar el fichero de

forma aleatoria. Pasos:

primer paso: formación de primer paso: formación de precluster precluster de los casosoriginales, Estos son clusters de los datos originales que se

utilizarán en lugar de las filas del fichero original pararealizar los ccluster jerárquicos en el segundo paso luster jerárquicos en el segundo paso. Todoslos casos pertenecientes a un mismo precluster se tratancomo un entidad sencilla.

 

Page 24: Analisis de Cluster Con SPSS

5/17/2018 Analisis de Cluster Con SPSS - slidepdf.com

http://slidepdf.com/reader/full/analisis-de-cluster-con-spss 24/29

PROCEDIMIENTO DE CLUSTER 

EN DOS PASOS--Seleccionaremos las variablesSeleccionaremos las variablescategóricas y continuas que

formaran parte del análisis--Elegiremos las distancias Elegiremos las distancias ::-Cuando se tengan datos mixtos ladistancia que debemos de utilizar es

el log-verosimilitud. La distanciaentre dos clusters dependerá deldecremento en el log-verosimilitudcuando ambas se combinan en un

único cluster. Si se trata de datoscontinuos se puede usar la distanciaeuclídea entre los centros de losclusters.

 

Page 25: Analisis de Cluster Con SPSS

5/17/2018 Analisis de Cluster Con SPSS - slidepdf.com

http://slidepdf.com/reader/full/analisis-de-cluster-con-spss 25/29

PROCEDIMIENTO DE CLUSTER 

EN DOS PASOS La opción número de clusters número de clusters 

permite especificar el número

deseado de conglomerados odejar que el algoritmoalgoritmoseleccione el númeroseleccione el número declusters basado en dos criteriosBIC (criterio Bayesiano) o AIC

(criterio de información deAkaike). El método requiere

estandarización de todas lasvariables por lo que por defecto

la efectúa y nos informa delnúmero de variables aestandarizar.

 

Page 26: Analisis de Cluster Con SPSS

5/17/2018 Analisis de Cluster Con SPSS - slidepdf.com

http://slidepdf.com/reader/full/analisis-de-cluster-con-spss 26/29

PROCEDIMIENTO DE CLUSTER 

EN DOS PASOS OPCIÓN GRÁFICOS OPCIÓN GRÁFICOS 

-Gráfico de porcentaje intraconglomerado:

Muestra los gráficos que indican variación decada variable dentro de los conglomerados.

En categóricas se genera un gráfico de barrasagrupado, mostrando la frecuencia de lascategorías en cada conglomerado.

En las contínuas un grafico de barras de errorpara la variable en cada conglomerado..

 

Page 27: Analisis de Cluster Con SPSS

5/17/2018 Analisis de Cluster Con SPSS - slidepdf.com

http://slidepdf.com/reader/full/analisis-de-cluster-con-spss 27/29

PROCEDIMIENTO DE CLUSTER 

EN DOS PASOS OPCIÓN GRÁFICOS OPCIÓN GRÁFICOS 

-Gráfico de sectores deconglomerados: :

porcentaje y frecuencia de individuosen cada conglomerado. 3

2

1

Número deconglomerados en dos

fases

Tamaño de conglomerado

 

Page 28: Analisis de Cluster Con SPSS

5/17/2018 Analisis de Cluster Con SPSS - slidepdf.com

http://slidepdf.com/reader/full/analisis-de-cluster-con-spss 28/29

PROCEDIMIENTO DE CLUSTER 

EN DOS PASOS OPCIÓN GRÁFICOS OPCIÓN GRÁFICOS 

Gráfico de importancia devariables : :

:Muestra varios gráficos que indican laimportancia de cada variable en cada

conglomerado.Los resultados se pueden ordenar según el nivel

de importancia de cada variable porconglomerado o por variable. En el primercaso para cada conglomerado se crearangráficos por orden de importancia devariables. En el segundo caso para cadavariable por conglomerados.

 

PROCEDIMIENTO DE CLUSTER

Page 29: Analisis de Cluster Con SPSS

5/17/2018 Analisis de Cluster Con SPSS - slidepdf.com

http://slidepdf.com/reader/full/analisis-de-cluster-con-spss 29/29

PROCEDIMIENTO DE CLUSTER 

EN DOS PASOS OPCIÓN GRÁFICOS OPCIÓN GRÁFICOS 

Medida de importancia devariables : :

:La opción permite seleccionar la medida de laimportancia para representar en el gráfico:

chi-cuadrado o t-student (categóricas ycuantitativas respectivamente).

Hay que seleccionar el nivel de significaciónglobal si se quiere que aparezcan las líneascorrespondientes al valor crítico

2

1

3     C    o    n    g     l    o    m    e    r    a     d    o

40200-20-40

t de Student

Estadístico decontraste

Valor crítico

Ajuste de Bonferroni aplicado

Huevos