45
Análisis Cluster - Alumna: Javiera Soledad Carmona López 1 Alumna: Javiera Soledad Carmona López 2013

Análisis Cluster-Javiera Carmona López

Embed Size (px)

Citation preview

Page 1: Análisis Cluster-Javiera Carmona López

Análisis Cluster - Alumna: Javiera Soledad Carmona López 1

Alu

mn

a: J

avie

ra S

ole

da

d C

arm

on

a Ló

pe

z

20

13

Page 2: Análisis Cluster-Javiera Carmona López

Análisis Cluster - Alumna: Javiera Soledad Carmona López 2

Contenidos

1. Introducción ................................................................................................................................................... 3

2. Objetivos ........................................................................................................................................................... 4

3. ¿Qué es el análisis cluster? ................................................................................................................... 5

4. ¿Cómo funciona el análisis cluster? ............................................................................................... 8

5. Proceso de decision con el análisis cluster ................................................................................ 9

5.1 Primer Paso: Objetivos del análisis ............................................................................................ 9

5.2 Segundo Paso: Diseño de Investigación mediante análisis Cluster ................ 11

5.3 Tercer Paso: Supuestos del Análisis cluster ........................................................................ 14

5.4 Cuarto Paso: Obtención de conglomerados y valoración del ajuste

conjunto .......................................................................................................................................................... 17

5.5 Paso 5: Interpretación de los conglomerados .............................................................. 20

5.6 Paso 6: Validación y perfil de los grupos ........................................................................... 21

6. Ejemplo Práctico con programa SPSS ........................................................................................ 23

7. Ejemplo Práctico R ................................................................................................................................... 35

8. Conclusiones ................................................................................................................................................ 44

9. Bibliografía ..................................................................................................................................................... 45

Análisis Cluster

Page 3: Análisis Cluster-Javiera Carmona López

Análisis Cluster - Alumna: Javiera Soledad Carmona López 3

3

1. Introducción

Los académicos y los investigadores de mercado se encuentran a menudo

con situaciones cuya mejor forma de resolverlas es definiendo grupos de

objetos homogéneos, tanto si son individuos como si son empresas, productos

o incluso comportamientos. Las opciones estratégicas basadas en los grupos

identificados en la población, como la segmentación y los objetivos de

marketing no serían posibles sin una metodología objetiva. Esta misma

necesidad se encuentra en otras áreas, que van desde las ciencias naturales a

las ciencias sociales. En todos estos casos, el investigador está buscando una

estructura <<natural>> entre las observaciones basadas en un perfil

multivariante.

La técnica más utilizada para este fin es el Análisis Cluster. El análisis cluster

agrupa a los individuos y a los objetos en conglomerados, de tal forma que los

objetos del mismo conglomerado son más parecidos entre sí que a los objetos

de otros conglomerados. Lo que se intenta es maximizar la homogeneidad de

los objetos dentro de los objetos dentro de los conglomerados mientras que a

la vez se maximiza la heterogeneidad entre los agregados.

El capítulo 9 del Análisis Multivariante (Hair, Anderson, Tatham y Black, 5º

Edición) explica la naturaleza y el propósito del análisis cluster y guía al

investigador en la selección y uso de los diversos enfoques del mismo.

Análisis Cluster

Page 4: Análisis Cluster-Javiera Carmona López

Análisis Cluster - Alumna: Javiera Soledad Carmona López 4

4

2. Objetivos

Definir las cuestiones apropiadas a investigar para ser tratadas por el

análisis cluster.

Entender cómo se mide la similitud entre objetos.

Distinguir entre las diferentes medidas de distancia.

Diferenciar entre los algoritmos de cluster y sus aplicaciones adecuadas.

Entender las diferencias entre las técnicas cluster jerárquicas y no

jerárquicas.

Entender cómo se selecciona el número de conglomerados a formar.

Seguir las líneas principales de validación del conglomerado.

Construir los perfiles de los conglomerados derivados y evaluar su

significación práctica.

Exponer las limitaciones del análisis cluster.

Utilizar el programa computacional de Estadística R para la

ejemplificación y aplicación del Análisis Cluster.

Page 5: Análisis Cluster-Javiera Carmona López

Análisis Cluster - Alumna: Javiera Soledad Carmona López 5

5

3. ¿Qué es el análisis cluster?

El análisis cluster es la denominación de un grupo de técnicas multivariantes

cuyo principal propósito es agrupar objetos basándose en las características

que poseen. El análisis cluster clasifica objetos(es decir, encuestados,

productos u otras entidades) de tal forma que cada objeto es muy parecido a

los que hay en el conglomerado con respecto a algún criterio de selección

predeterminado. Los conglomerados de los objetos resultantes deberían

mostrar un alto grado de homogeneidad interna (dentro del conglomerado) y

un alto grado de heterogeneidad externa (entre conglomerados). Por tanto si

la clasificación es acertada, los objetos dentro de los conglomerados estarán

muy próximos cuando se representen gráficamente, y los diferentes grupos

estarán muy alejados.

En el análisis Cluster, de nuevo el concepto de valor teórico es central, pero en

forma muy diferente del resto de las técnicas multivariantes. El valor teórico del

Análisis cluster es el conjunto de variables que representan las características

utilizadas para comparar objetos en el análisis cluster. Dado que el valor

teórico del análisis cluster incluye sólo las variables utilizadas para comparar

objetos, determina el <<carácter>> de los objetos. El análisis cluster es la única

técnica multivariante que no estima el valor teórico empíricamente sino que

utiliza el valor teórico especificado pro el investigador. El objetivo del análisis

cluster es la comparación de objetos basándose en el valor teórico, no en la

estimación del valor teórico en sí misma. Esto hace crucial la definición que dé

el investigador al valor teórico para el análisis cluster.

El análisis de cluster es un

método que permite

descubrir asociaciones y

estructuras en los datos

que no son evidentes a

priori pero que pueden ser

útiles una vez que se han

encontrado. Los resultados

de un Análisis de Clusters

Page 6: Análisis Cluster-Javiera Carmona López

Análisis Cluster - Alumna: Javiera Soledad Carmona López 6

6

pueden contribuir a la definición formal de un esquema de clasificación tal

como una taxonomía para un conjunto de objetos, a sugerir modelos

estadísticos para describir poblaciones, a asignar nuevos individuos a las clases

para diagnóstico e identificación, etc.

El análisis cluster es muy útil cuando un investigador desea desarrollar las

hipótesis concernientes a la naturaleza de los datos o para examinar las

hipótesis previamente establecidas. Por ejemplo, un investigador puede creer

que las actitudes hacia el consumo de refrescos normales frente a <<lights>>

podrían utilizarse para separar a los consumidores de refrescos en segmentos

lógicos o grupos. El análisis cluster puede clasificar consumidores de refrescos

por sus actitudes hacia los refrescos normales frente a los light, y los

conglomerados resultantes, si los hay, pueden perfilarse mediante diferencias y

similitudes demográficas y similitudes demográficas.

Estos ejemplos son sólo una reducida fracción de los tipos de aplicaciones del

análisis cluster. Desde la derivación de taxonomías en biología para la

agrupación de todos los organismos vivientes a clasificaciones psicológicas

basadas en la personalidad y otros rasgos personales, pasando por los análisis

de segmentación de los mercados, el análisis cluster ha tenido siempre una

fuerte tradición en la agrupación de individuos. Esta tradición se ha extendido

a la clasificación de objetos, incluyendo la estructura de mercado, análisis de

similitudes y diferencias entre productos nuevos y evaluación de rendimiento

de empresas para identificar agrupaciones basadas en las estrategias de las

empresas u orientaciones estratégicas. El resultado ha sido una profusión de

aplicaciones en casi todas las áreas de investigación, creando no sólo una

riqueza de conocimiento en el uso del análisis de conglomerados sino también

la necesidad de una mejor comprensión de la técnica para minimizar su mala

utilización.

Sin embargo junto con los beneficios del análisis cluster existen algunos

inconvenientes. El análisis cluster puede caracterizarse como:

Descriptivo.

Ateórico.

No inferencial.

Page 7: Análisis Cluster-Javiera Carmona López

Análisis Cluster - Alumna: Javiera Soledad Carmona López 7

7

El análisis cluster no tiene bases estadísticas sobre las cuales deducir inferencias

estadísticas para una población a partir de una muestra, y se utiliza

fundamentalmente como una técnica exploratoria. Las soluciones no son

únicas, en la medida en que la pertenencia al conglomerado para cualquier

número de soluciones depende de muchos elementos del procedimiento y se

pueden obtener muchas soluciones diferentes variando uno o más de estos

elementos. Además, el análisis cluster creará conglomerados, a pesar de la

existencia de una auténtica estructura en los datos. Finalmente, la solución

cluster es totalmente dependiente de las variables utilizadas como base para

la medida de similitud. La adición o destrucción de variables relevantes puede

tener un impacto sustancial sobre la solución resultante. Por tanto, el

investigador debe tener particular cuidado en evaluar el impacto de cada

decisión implicada en el desarrollo de un análisis cluster.

Análisis de Interdependencia

Relación entre

variables

Relación entre

objetos Relación entre

casos

Métricas No Métricas

Componentes

principales

Análisis

Factorial

Análisis

Correspondencias Análisis

Cluster Escalamiento

multidimensional

Figura1: Tipos de Análisis de Interdependencia

Page 8: Análisis Cluster-Javiera Carmona López

Análisis Cluster - Alumna: Javiera Soledad Carmona López 8

8

4. ¿Cómo funciona el análisis cluster?

La naturaleza del análisis cluster puede ilustrarse mediante un simple ejemplo

bivariante.

El objetivo principal del análisis cluster es definir la estructura de los datos

colocando las observaciones más parecidas en grupos. Pero para llevar a

cabo la tarea, se debe tratar 3 cuestionamientos básicos.

I. ¿Cómo medimos la similitud? Se necesita un método de observaciones

simultáneamente comparadas sobre 2 variables de aglomeración. Son

posibles varios métodos, incluyendo la correlación entre objetos, una

medida de asociación utilizada en otras técnicas multivariantes o quizá

midiendo su proximidad en un espacio bidimiensional de tal forma que

la distancia entre las observaciones indica similitud.

II. ¿Cómo formamos los conglomerados? No importa cómo se mida la

similitud, el procedimiento debe agrupar aquellas observaciones que

son más similares dentro de un conglomerado. Este procedimiento debe

determinar la pertenencia al grupo de cada observación.

III. ¿Cuántos grupos formamos?

Puede utilizarse cualquier número de <<reglas>>, pero la tarea fundamental es

evaluar la similitud <<media>> dentro de los conglomerados, de tal forma que

a medida que la media aumenta, el conglomerado se hace menos similar. El

investigador se enfrenta a continuación a un trade-off: pocos conglomerados

frente a menos homogeneidad. Una estructura simple, al tender hacia la

parsimomia, se refleja en el menor número de conglomerados posible. Pero a

medida que el número de conglomerados disminuye, la homogeneidad

dentro de los conglomerados necesariamente disminuye. Por tanto, se debe

buscar un equilibrio entre la definición de las estructuras más básicas (pocos

conglomerados) que todavía mantienen el necesario nivel de similitud dentro

de los conglomerados. Una vez que se tenga procedimientos para cada

asunto, se podrá realizar el análisis cluster.

Page 9: Análisis Cluster-Javiera Carmona López

Análisis Cluster - Alumna: Javiera Soledad Carmona López 9

9

5. Proceso de decision con el análisis cluster

El análisis cluster, puede verse como una aproximación a la construcción de

modelos en seis pasos. Comenzando con los objetivos de investigación que

pueden ser tanto ´confirmatorios como exploratorios, el diseño de un análisis

cluster interviene en la participación del conjunto de datos para formar

conglomerados, la interpretación de los conglomerados y la validación de los

resultados´, el proceso de participación determina como se pueden desarrollar

los conglomerados. El proceso de interpretación implica entender las

características de cada conglomerado y desarrollar un nombre o etiqueta

que defina apropiadamente su naturaleza. El proceso final comprende la

evaluación de la validación de la solución cluster (es decir, determinación

de su estabilidad y generalidad), junto con la descripción de las características

de cada conglomerado para explicar cómo puede diferir en dimensiones

relevantes como las demográficas. Las siguientes secciones detallan todos

estos asuntos a lo largo de un proceso de construcción de modelos.

5.1 Primer Paso: Objetivos del análisis

El objetivo fundamental del análisis cluster es la obtención de un conjunto de

objetos en dos o más grupos basándose en su similitud para un conjunto de

características especificadas (valor teórico del análisis cluster).

Al formar grupos homogéneos, el investigador puede conseguir los siguientes

objetivos:

I. Descripción de una taxonomía:

El uso más tradicional del análisis cluster ha sido para propósitos

exploratorios y la formulación de una taxonomía – una clasificación de

objetos realizada empíricamente .Como se ha descrito previamente, el

análisis cluster se ha utilizado para un amplio rango de aplicaciones

debido a su capacidad para la participación. Pero el análisis cluster

puede generar también hipótesis relacionadas con la estructura de los

objetos. Sin embargo, aunque visto principalmente como una técnica

de exploración, el análisis cluster puede utilizarse a efectos

confirmatorios. Si una estructura propuesta puede definirse para un

Page 10: Análisis Cluster-Javiera Carmona López

Análisis Cluster - Alumna: Javiera Soledad Carmona López 10

10

conjunto de objetos, se puede aplicar el análisis cluster, y puede

compararse una tipología propuesta (clasificación basada en la teoría)

a la derivada del análisis cluster.

II. Simplificación de los datos:

En el curso de una obtención de una taxonomía, el análisis cluster

también obtiene una perspectiva simplificada de las observaciones.

Con una estructura definida, las observaciones pueden agruparse

para análisis ulteriores. Mientras el análisis factorial intenta proporcionar

dimensiones o estructuras de variables, el análisis cluster desarrolla la

misma tarea para las observaciones .Por tanto, en lugar de ver todas

las observaciones como únicas, pueden ser consideradas como

miembros de un conglomerado y perfiladas por sus características

generales.

III. Identificación de relación:

Con los conglomerados definidos y la estructura subyacente de los

datos representados en dichos conglomerados, el investigador tiene un

medio de revelar relaciones entre las observaciones que quizá no

fuesen posibles con las observaciones individuales. Mientras se utilizan

análisis tales como el discriminante para identificar relaciones

empíricamente, o los grupos están sujetos a métodos más cualitativos, la

estructura simplificada del análisis cluster muchas veces representa

relaciones o similitudes y diferencias no reveladas previamente.

Selección de variables del análisis cluster

En cualquier aplicación, los objetivos del análisis cluster no pueden separarse

de la selección de variables y utilizadas para caracterizar los objetos a

agrupar. Tanto si el objetivo es exploratorio como confirmatorio, el investigador

ha restringido efectivamente los resultados posibles por las variables elegidas

para el uso. Los conglomerados derivados reflejan la estructura inherente de

los datos sólo como definida por la variable.

La selección de las variables a incluir con el valor teórico del análisis cluster

debe hacerse con relación a consideraciones teóricas, conceptuales y

Page 11: Análisis Cluster-Javiera Carmona López

Análisis Cluster - Alumna: Javiera Soledad Carmona López 11

11

prácticas. Cualquier aplicación de análisis cluster debe descansar en cierta

lógica en función de la cual se seleccionan las variables. Tanto si dicha lógica

se basa en una teoría explicita, investigación pasada o suposición, el

investigador debe darse cuenta de la importancia de incluir solo aquellas

variables que (1) caracterizan los objetos que se están agrupando, y (2) se

refieren específicamente los objetivos del análisis cluster.

Las técnicas del análisis cluster no tienen un medio para diferenciar las

variables relevantes de las irrelevantes. Solo obtiene los grupos de objetos más

consistentes, aunque diferenciados, para todas las variables. La conclusión de

una variable irrelevante aumenta la posibilidad de que se creen atípicos sobre

éstas variables, que puedan tener un efecto importante sobre los resultados.

Por tanto, uno nunca debería incluir variables indiscriminadamente sino en su

lugar elegir las variables utilizando el objetivo de investigación como criterio de

selección.

A efectos prácticos, el análisis cluster puede verse drásticamente afectada por

la inclusión de una o dos variables inapropiadas o escasamente

diferenciadas. Se anima al investigador a examinar los resultados y eliminar las

variables que no son distintivas (es decir, que no difieren significativamente) de

todos los conglomerados deducidos. Este procedimiento permite a las

técnicas cluster maximizar los conglomerados definidos basándose solo en

aquellas variables que exhiban diferencias para todos los objetos.

5.2 Segundo Paso: Diseño de Investigación mediante análisis

Cluster

Con los objetivos definidos y variables seleccionadas, el investigador debe

tratar tres cuestiones antes de empezar el proceso de partición:

(1)¿Pueden detectarse los atípicos y, si es posible, deberían ser destruidos?

(2)¿Cómo debería medirse la similitud de los objetos?

(3)¿Deberían estandarizarse los datos?

Se pueden utilizar muchos enfoques para contestar a estas preguntas. Sin

embargo, ninguno de ellos ha sido evaluado suficientemente como para

Page 12: Análisis Cluster-Javiera Carmona López

Análisis Cluster - Alumna: Javiera Soledad Carmona López 12

12

ofrecer una respuesta definitivamente a cualquiera de esas cuestiones, y,

desafortunadamente, muchas de las aproximaciones ofrecen diferentes

resultados para el mismo conjunto de datos. Por tanto, el análisis cluster junto

con el análisis factorial, es más un arte que una ciencia. Por ésta razón, nuestra

discusión revisa éstos supuestos de forma muy general ofreciendo ejemplos de

los enfoques habitualmente más utilizados y una evaluación de las limitaciones

prácticas siempre que sea posible.

La importancia de estos supuestos y las decisiones hechas en los últimos pasos

se hacen aparentes cuando nos damos cuenta de que aunque el análisis

cluster está buscando una estructura de los datos debe imponer en realidad

una estructura a partir de una metodología seleccionada. El análisis Cluster no

puede evaluar todas las posibles participaciones porque, incluso para un

problema relativamente pequeño de participación de 25 objetos en 5

conglomerados no solapados, existen 2,4 x 10^15 participaciones posibles. En

su lugar basándose en las decisiones del investigador, la técnica identificada

una de las posibles situaciones como (correcta). Desde éste punto de vista, los

supuestos del diseño de investigación y la elección de metodologías hechas

por el investigador tienen quizás un impacto superior al del resto de las

técnicas multivariables.

Detección de Atípicos

En la búsqueda de una estructura, el análisis cluster es muy sensible a la

inclusión de variables irrelevantes. Pero el análisis cluster es también sensible a

los atípicos.

Los atípicos pueden representar tanto

(1) Observaciones verdaderamente aberrantes que no son representativas de

la población en general.

(2) Una muestra reducida del grupo de la población que provoca una mala

representación del grupo de la muestra.

En ambos casos, los atípicos distorsionan la verdadera estructura de la

población. Por esta razón, siempre es necesaria una representación preliminar

Page 13: Análisis Cluster-Javiera Carmona López

Análisis Cluster - Alumna: Javiera Soledad Carmona López 13

13

de los atípicos. Probablemente la forma más sencilla de llevar a cabo es esta

representación es preparar un diagrama de perfil gráfico, tal como se muestra

en la figura.

Figura 2: Perfiles de Clusters, según fuentes de seguridad económica de los

adultos mayores.

Medidas de Similitud

La similitud es una medida de correspondencia o semejanza entre los objetos

que van a ser agrupados. La estrategia más común consiste en medir la

equivalencia en términos de la distancia entre los pares de objetos. Los objetos

con distancias reducidas entre ellos son más parecidos entre sí que aquellos

que tienen distancias mayores y se agruparan, por tanto, dentro del mismo

cluster.

Según la clasificación de Sneath y Sokal (Pérez, 2007) existen cuatro grandes

tipos de medidas de similitud:

I. Distancias: pone el énfasis en sobre el grado de diferencia o existente

entre dos elementos. El ejemplo más clásico es la distancia euclídea.

II. Coeficientes de asociación: se utiliza preferentemente para datos

cualitativos. Estas medidas son, básicamente, una forma de medir la

concordancia o conformidad entre los estados de dos columnas de

datos.

Page 14: Análisis Cluster-Javiera Carmona López

Análisis Cluster - Alumna: Javiera Soledad Carmona López 14

14

III. Coeficientes angulares: se utilizan para medir la proporcionalidad e

independencia entre los vectores que definen los individuos. El más

común es el coeficiente de correlación aplicado a variables continuas.

IV. Coeficientes de similitud probabilística: miden la homogeneidad del

sistema por particiones o subparticiones del conjunto de individuos e

incluye información estadística. Se relacionan los coeficientes a

diferentes clasificaciones utilizando para ellas criterios de bondad o

buenos ajustes estadísticos.

Tipificación de datos

La mayoría de las medidas de distancias son bastantes sensibles a las

diferentes escalas o magnitudes de las variables. En general, las variables con

una mayor dispersión (es decir, grandes desviaciones estándar) tienen mayor

impacto en el valor final de similitud.

La forma más común de estandarización es la conversión de cada variable a

unas puntuaciones estándar (puntuaciones Z) restando la media y dividiendo

por la desviación de cada variable. Este proceso convierte cada puntuación

de los datos originales en un valor estandarizado con media de 0 (cero) y

desviación estándar de 1 (uno). Esta transformación, a cambio, elimina el

sesgo introducido por las diferencias en las mediciones de varios atributos o

variables utilizadas en el análisis.

También existe la estandarización por observación, si se quiere identificar los

grupos de acuerdo a su estilo de respuesta en una encuesta. En este caso la

estandarización por encuestado estandarizaría cada cuestión no por la media

de la muestra sino por la puntuación del encuestado. Esta tipificación entre

sujetos o centrada por filas puede ser bastante efectiva al eliminar efectos de

respuestas y especialmente adecuada para muchas formas de datos de

actitud.

5.3 Tercer Paso: Supuestos del Análisis cluster

El análisis cluster no es técnica de inferencia estadística en la que se analizan

los parámetros de una muestra en la medida en que puedan ser

representativos de una población. Por el contrario, este análisis es una

Page 15: Análisis Cluster-Javiera Carmona López

Análisis Cluster - Alumna: Javiera Soledad Carmona López 15

15

metodología objetiva de cuantificación de las características estructurales de

un conjunto de observaciones. Por ello, tiene fuertes propiedades

matemáticas pero no fundamentos estadísticos. Los requisitos de normalidad,

linealidad y homocedasticidad tienen poca consistencia en el análisis cluster.

Sin embargo, se debe centrar la atención en dos cuestiones esenciales:

representatividad de la muestra y la multicolinealidad.

La multicolinealidad actúa como proceso de ponderación no aparente para

el observador pero que sin embargo afecta al análisis. Aquellas variables que

son multicolineales están implícitamente ponderadas con más fuerza. La

solución a este problema es, o bien reducir las variables al mismo número en

cada conjunto o bien utilizar la medida de distancia de Mahalanobis que

compensa esta correlación.

Page 16: Análisis Cluster-Javiera Carmona López

Análisis Cluster - Alumna: Javiera Soledad Carmona López 16

16

Figura 3: Diagrama de decisión de los pasos 1-3. (Análisis multivariante, 5ta

edición de Hair, Anderson, Tatham y Black).

Page 17: Análisis Cluster-Javiera Carmona López

Análisis Cluster - Alumna: Javiera Soledad Carmona López 17

17

5.4 Cuarto Paso: Obtención de conglomerados y valoración

del ajuste conjunto

Los diferentes métodos de análisis de conglomerados surgen de las distintas

formas de llevar a cabo la agrupación de los individuos, es decir,

dependiendo del algoritmo que se utilice para llevar a cabo la agrupación de

individuos, se obtienen diferentes métodos de análisis de conglomerados.

Pérez López (2007) proporciona la siguiente clasificación de los métodos de

análisis cluster basada en los algoritmos de agrupación de individuos:

I. Métodos Aglomerativos-Divisivos: método aglomerativo es aquel que

considera tantos grupos como individuos y sucesivamente va

agrupando los dos grupos más similares, hasta llegar a una clasificación

determinada; mientras que el método divisivo parte de un solo grupo

formado por todos los individuos, y en cada etapa posterior va

apartando individuos de los grupos establecidos anteriormente,

formando nuevos grupos.

II. Métodos Jerárquicos-No Jerárquicos: el método jerárquico consiste en

una secuencia de g+1 cluster: G0,… , Gg en la que G0 es la

participación disjunta de todos los individuos y Gg es el conjunto

partición. Progresivamente, el número de partes de cada una de las

particiones disminuye, lo que hace que estas sean cada vez más

amplias y menos homogéneas. Por el contrario, en el método no

jerárquico se forman grupos homogéneos sin establecer relaciones de

orden o jerárquicas entre dichos grupos.

III. Métodos Solapados-Exclusivos: el método solapado acepta que un

individuo pueda pertenecer a dos grupos simultáneamente en alguna

de las etapas de clasificación, mientras que se dice exclusivo si prohíbe

a los individuos pertenecer simultáneamente a dos grupos en la misma

etapa.

IV. Métodos Secuenciales-Simultáneos: en el método secuencial se aplica

el mismo algoritmo en forma recursiva a cada grupo, mientras que los

métodos simultáneos son aquellos en los que la clasificación se logra por

una simple y no reiterada operación sobre los individuos.

Page 18: Análisis Cluster-Javiera Carmona López

Análisis Cluster - Alumna: Javiera Soledad Carmona López 18

18

V. Métodos Monotéticos-Politéticos: el método monotético está basado en

una característica única de los objetos a clasificar; mientras que el

politético no exige que todos los objetos posean las mismas

características, aunque sí las suficientes como para poder justificar la

analogía entre los miembros de una misma clase.

VI. Métodos Directos-Iterativos: el método directo utiliza algoritmos en los

que una vez establecido un individuo a un grupo ya no se saca del

mismo, mientras que los métodos iterativos comprueban en cada

iteración si la asignación de un individuo a un conglomerado es óptima

llevando a cabo un nuevo reagrupamiento de los individuos si es

necesario.

VII. Métodos Ponderados-No Ponderados: el método no ponderado

establece el mismo peso a todas las características (o variables) de los

individuos a clasificar; mientras que el ponderado hace recaer mayor

peso en determinadas características.

VIII. Métodos Adaptativos-No Adaptativos: en el método no adaptativo, el

algoritmo utilizado se dirige hacia una solución en la que el

procedimiento de formación de conglomerados es fijo y está

predeterminado, mientras que el adaptativo es aquel que de alguna

manera aprende durante el proceso de formación de los grupos y

cambia el criterio de optimización o la medida de similitud a utilizar.

Los métodos de análisis de conglomerados que más se usan son los que son a

la vez secuenciales, aglomerativos, jerárquicos y exclusivos, y que reciben el

acrónimo, en lengua inglesa, de S.A.H.N. (Sequential, Agglomerative,

Hierarchic y Nonoverlaping). Entre los diferentes métodos de análisis de

conglomerados de tipo S.A.H.N. tenemos los siguientes:

Método de Unión Simple, entorno o vecino más cercano o método del

mínimo.

Método de la distancia máxima, entorno o vecino más lejano o método

del máximo.

Método de la media o de la distancia promedio no ponderado.

Método de la media ponderada o de la distancia promedio

ponderado.

Page 19: Análisis Cluster-Javiera Carmona López

Análisis Cluster - Alumna: Javiera Soledad Carmona López 19

19

Método de la mediana o de la distancia mediana.

Método del centroide o de la distancia prototipo.

Método de Ward o de mínima varianza.

Los métodos no jerárquicos se diferencian de los métodos jerárquicos en que

el investigador debe especificar a priori los grupos que deben ser formados y

que trabajan con la matriz de datos original y no requieren su conversión a una

matriz de proximidades. Pedret en (Pérez, 2007) agrupa los métodos no

jerárquicos en las cuatro familias siguientes:

I. Métodos de reasignación: admiten que un objeto asignado a un grupo

en un paso del proceso sea reubicado en otro grupo en un paso

posterior si esto optimiza el criterio de selección. El proceso concluye

cuando no quedan individuos cuya reasignación permita optimizar el

resultado. El algoritmo más conocido dentro de estos métodos es el

método de K-medias.

II. Métodos de búsqueda de la densidad: presentan dos aproximaciones.

La aproximación tipológica, donde los grupos se forman buscando las

zonas en las cuales se da una mayor concentración de individuos. El

análisis modal de Wishart es uno de los algoritmos más conocidos dentro

estos métodos. En la aproximación probabilística, se parte del postulado

de que las variables siguen una ley de probabilidad según la cual los

parámetros varían de un grupo a otro. Se trata de encontrar los

individuos que pertenecen a la misma distribución. Se destaca en esta

aproximación el método de las combinaciones de Wolf.

III. Métodos directos: clasifican simultáneamente a los individuos y a las

variables.

IV. Métodos de reducción de dimensiones: buscan factores en el espacio

de los individuos, correspondiendo cada factor a un grupo.

Determinación del número de conglomerados en la solución final

Como ya habrá quedado claro, en la selección de la solución cluster definitiva

se deja al juicio del observador y es considerado por muchos como un proceso

muy subjetivo. Incluso aunque se han desarrollado métodos más sofisticados

para ayudar en la evaluación de las soluciones cluster, sigue recayendo en el

investigador de la decisión final del número de conglomerados aceptados en

Page 20: Análisis Cluster-Javiera Carmona López

Análisis Cluster - Alumna: Javiera Soledad Carmona López 20

20

la solución final. El análisis cluster es más simple en este caso bivariante porque

los datos están en dos dimensiones. En la mayoría de los estudios de marketing,

sin embargo, se miden más de dos variables con cada objeto, y la situación es

mucho más compleja con muchas más observaciones.

5.5 Paso 5: Interpretación de los conglomerados

Una vez configurados los conglomerados definitivos, conviene caracterizarlos

mediante un patrón de comportamiento respecto a las variables observadas.

El método más usual de caracterización consiste en representar los perfiles de

las medias aritméticas por variables de los distintos centroides.

La interpretación y el perfil de los grupos comprenden el análisis de los

centroides de grupo. Los centroides representan los valores medios de los

objetos que contiene el grupo en cada una de las variables.

El objetivo de esta etapa es, esencialmente, examinar la variación de los

clusteres para asignar etiquetas que describan de un modo veraz su

naturaleza.

Con respecto al perfilado de los conglomerados o grupos, cabe decir que no

es más que la descripción de las características de cada cluster para explicar

cómo podrían inferir en dimensiones relevantes. Para conseguir esto, se recurre

normalmente al empleo del Análisis

Discriminante o a algún otro estadístico apropiado. El analista utiliza los datos

no incluidos previamente en el procedimiento de aglomeración para perfilar

las características de cada cluster. Estos datos suelen ser características

demográficas, perfiles psicográficos, etc.

En resumen, el análisis de perfiles se enfoca a describir no a lo que determinan

directamente los clusters sino (una vez se han determinado los distintos grupos)

a sus características propias. Por ello, se hace especial énfasis en las

características que definen los grupos y en la capacidad de los miembros de

cada conglomerado para predecir una actitud particular del cluster en

cuestión.

Page 21: Análisis Cluster-Javiera Carmona López

Análisis Cluster - Alumna: Javiera Soledad Carmona López 21

21

5.6 Paso 6: Validación y perfil de los grupos La validación incluye los intentos del investigador por asegurar que la solución

cluster es representativa de la población general y por tanto generalizable a

otros objetos y estable en el tiempo. La aproximación más directa en este

sentido es realizar análisis cluster para muestras distintas.

Dados los criterios generales que comprende el análisis cluster, no debe

aceptarse ninguna solución de agrupación sin una evaluación de su confianza

y validez. La validación es el intento por parte del analista de asegurar que los

clusters obtenidos sean representativos de la población original y que sean

generalizables a otros objetos y estables a lo largo del tiempo.

Los siguientes procedimientos ofrecen revisiones adecuadas de la calidad de

los resultados de la agrupación:

Realizar el análisis cluster con los mismos datos y utilizar distintas medidas

de distancia. Comparar los resultados con todas las medidas a fin de

determinar la estabilidad de las soluciones.

Utilizar diversos métodos de conglomerado y comparar los resultados.

Dividir los datos a la mitad de forma aleatoria. Realizar el análisis cluster

por separado en cada mitad (submuestra). Comparar las soluciones de

los dos análisis y evaluar la correspondencia de los resultados o bien

comparar los centroides de grupo de las dos submuestras.

Eliminar las variables de forma aleatoria. Realizar la agrupación

basándose en el conjunto reducido de variables. Comparar los

resultados basados en el conjunto completo con los que se obtuvieron

al realizar el conglomerado.

En el conglomerado no jerárquico la solución puede depender del

orden de los casos en el conjunto de datos. Para estudiar esto, es

recomendable llevar a cabo corridas múltiples y utilizar distintos órdenes

de los casos hasta estabilizar la solución.

Page 22: Análisis Cluster-Javiera Carmona López

Análisis Cluster - Alumna: Javiera Soledad Carmona López 22

22

Figura 4: Diagrama de decisión de los pasos 4-6. (Análisis multivariante, 5ta

edición de Hair, Anderson, Tatham y Black).

Page 23: Análisis Cluster-Javiera Carmona López

Análisis Cluster - Alumna: Javiera Soledad Carmona López 23

23

6. Ejemplo Práctico con programa SPSS

Formulación del problema

La idea de región hace referencia a espacios geográficos constituidos en

razón de homogeneidades o similitudes socioeconómicas, de nodos

funcionales o de proyectos unitarios de acción (Boudeville citado en Clément,

2000). En este trabajo se ha aplicado el análisis cluster a las distintas

comunidades regionales de la provincia de Córdoba buscando una estructura

“natural” que identifique grandes zonas de análisis basándose en el parecido

o similaridad existente entre ellas.

Inicialmente, se parte de una matriz de datos n x p con n=26 observaciones –

departamentos- y p=13 variables. Las variables corresponden a indicadores

socioeconómicos respecto de la población de la provincia de Córdoba y

están elaboradas a partir de los Informes Departamentales en el año 2006

realizados por la Dirección General de Estadísticas y Censos de la provincia de

Córdoba. Entre las características recolectadas se encuentran: el Producto

Bruto Geográfico per cápita (PBG), Gasto Público Provincial per cápita, Planes

de Empleo por cada mil habitantes, Inseguridad, Inversión Pública Provincial,

Población Total, Tipo de Vivienda, Condición Necesidades Básicas

Insatisfechas (NBI), Obra Social, Ocupación, Jubilación, Fecundidad,

Educación. La descripción de las variables se encuentra detallada en el anexo

de este trabajo.

Selección de las variables a utilizar

El análisis cluster debe atender a dos criterios, que la muestra sea

representativa y a la existencia de multicolinealidad.

La representatividad de la muestra, en este caso de estudio, no constituye un

problema porque las unidades de análisis implican toda la estructura de la

población.

Sin embargo, en una etapa preliminar del análisis se puede anticipar la

existencia de multicolinealidad entre las variables por la naturaleza del

problema que se está trabajando, las variables en su conjunto representan

atributos socio-económicos de la población en los distintos departamentos.

Para detectar formalmente la existencia de multicolinealidad se utiliza como

Page 24: Análisis Cluster-Javiera Carmona López

Análisis Cluster - Alumna: Javiera Soledad Carmona López 24

24

medida estadística la “Tolerancia”2. Este estadístico confirma que las variables

incorporadas al trabajo presentan un alto grado de colinealidad. Por ello, se

procede a eliminar del modelo aquellas variables con más baja Tolerancia. Las

variables PBG, Inseguridad, Inversión Pública, Población y NBI resultan con un

grado de

multicolinealidad mínimo y, perfectamente puede continuarse el trabajo de

análisis sin adoptar medidas remediables.

La tabla con la estadística descriptiva revela la gran variabilidad de los datos

en cada variable y la diferencia de escalas entre ellas, lo que justifica la

estandarización.

Diseño de la investigación

El primer paso dentro del diseño de investigación es decidir sobre la medida

de similitud entre los objetos. Entre las distintas alternativas, se ha optado por la

distancia euclídea al cuadrado dado que el conjunto de variables

incorporadas es métrico. Como las variables se encuentran medidas en

distintas escalas es necesario que se estandaricen previamente, para ello se

elige la tipificación a través de las puntuaciones Z para cada variable.

El siguiente paso ha consistido en la elección del método de aglomeración. En

el ejemplo que aquí se expone, de las distintas aproximaciones posibles para

obtener grupos mediante esta técnica, se ha elegido el método de

agrupamiento jerárquico. Además, el método de encadenamiento escogido

es el método de Ward o de varianza mínima. La idea básica de este método

es ir agrupando elementos, en este caso departamentos de la provincia de

Córdoba, de forma jerárquica y minimizando la variación intragrupo de la

estructura formada.

Page 25: Análisis Cluster-Javiera Carmona López

Análisis Cluster - Alumna: Javiera Soledad Carmona López 25

25

Interpretación y Elaboración del Perfil de los Clusteres

A continuación, se detallan los resultados de aplicar el Análisis de

Conglomerado Jerárquico Aglomerativo con el Método de Ward utilizando el

paquete estadístico SPSS.

Determinación del número de grupos

El historial de aglomeración muestra las distancias de aglomeración y los

grupos que se han ido formando al aplicar el algoritmo. El dendrograma que

se expone en la página siguiente, proporciona dicha información de forma

gráfica.

Page 26: Análisis Cluster-Javiera Carmona López

Análisis Cluster - Alumna: Javiera Soledad Carmona López 26

26

Un primer examen del dendrograma indica que la diferencia entre los grupos

es amplia, ya que la unión de los mismos se va realizando a niveles de la

escala altos, siendo la unión final en el último valor posible, es decir, en el 25.

El dendrograma, además, permite la identificación visual de la existencia de

casos atípicos, donde un atípico sería una “rama” que no se unió hasta muy

tarde. El departamento Capital como grupo unipersonal puede interpretarse

como un componente estructural válido en la muestra, sin embargo, se opta

por incluirlo dentro de un cluster junto a otros departamentos con los cuales

comparte ciertas características (que más tarde se detallan).

En cuanto a la decisión del número de conglomerados, en esta investigación

se ha optado por elegir la cantidad de grupos según la claridad de las

descripciones para cada uno y su aplicación práctica. Por tanto, se examina

la solución de tres grupos.

Page 27: Análisis Cluster-Javiera Carmona López

Análisis Cluster - Alumna: Javiera Soledad Carmona López 27

27

Determinación del perfil de los grupos

Una vez determinada la cantidad de clusters, se debe interpretar el perfil de

cada uno de ellos. Las tablas con información referida a las cinco variables

utilizadas y que permiten el análisis en esta etapa, se presentan a

continuación.

Page 28: Análisis Cluster-Javiera Carmona López

Análisis Cluster - Alumna: Javiera Soledad Carmona López 28

28

Junto con la tabla de valores extremos, la comparación de medias entre

grupos permite elaborar el siguiente perfil de los conglomerados:

El Grupo 1 está compuesto por 13 departamentos que muestran mayor PBG e

Inversión Pública per cápita. Para las variables Inseguridad, Población y NBI

este cluster presenta un nivel menor al promedio poblacional.

El Grupo 2 incluye a 4 de los departamentos de mayor tamaño poblacional.

Sin embargo, se caracteriza por mayor nivel de Inseguridad y menor nivel de

Inversión Pública per cápita.

El Grupo 3 queda definido por los 9 departamentos con mayor nivel de NBI y

menor tamaño poblacional. No obstante, contiene a los departamentos con

menor nivel de Inseguridad.

En base a estos resultados, puede categorizarse a cada grupo en función de

su condición socioeconómica en Alta, Media y Baja; así, el grupo 1 posee una

condición Alta, el grupo 2 un nivel Medio y el grupo 3 una posición

socioeconómica Baja.

Por medio del ANOVA y utilizando la variable de “conglomerado de

pertenencia” que resulta del análisis cluster se puede comprobar la existencia

de diferencias significativas entre los grupos obtenidos.

Page 29: Análisis Cluster-Javiera Carmona López

Análisis Cluster - Alumna: Javiera Soledad Carmona López 29

29

El ANOVA permite indagar sobre la existencia de igualdad de medias entre los

conglomerados. De la tabla se advierte que existen diferencias significativas

en todas las variables con excepción de la variable Inversión. Esta variable no

sería útil para clasificar pues los grupos definidos poseen el mismo nivel

promedio de inversión. En un trabajo posterior que avance sobre la aplicación

de esta técnica, se debería eliminar esta variable o construir un índice que

muestre el desarrollo en Infraestructura para cada departamento.

Page 30: Análisis Cluster-Javiera Carmona López

Análisis Cluster - Alumna: Javiera Soledad Carmona López 30

30

La tabla anterior contiene el estadístico de Levene, el cual permite contrastar

la hipótesis de que las varianzas poblacionales son iguales. Puesto que el nivel

crítico de las variables PBG, Inversión y NBI son mayores que 0,05 se acepta la

hipótesis de igualdad de varianzas, mientras que para las variables Inseguridad

y Población se concluye que en las poblaciones definidas por los tres grupos,

las varianzas de las variables no son iguales. Este resultado es útil para encarar

el análisis de los grupos por medio del siguiente contraste denominado

Comparaciones Múltiples Post Hoc.

El ANOVA Post Hoc permite averiguar qué grupos difieren entre sí en cada una

de las variables. La primera columna de la tabla indica que los procedimientos

post hoc seleccionados fueron: la diferencia honestamente significativa (HSD)

de Tukey – asume varianzas iguales - y el método de Games-Howes – no

asume varianzas iguales-.

Para las variables PBG, Inversión y NBI se debe prestar atención a la solución

propuesta por Tukey, mientras que, para las variables Inseguridad y Población

la solución apropiada es la de Games-Howes.

De la tabla surge que los promedios comparados para la variable PBG no

difieren significativamente entre los grupos 2 y 3. Los grupos 1 y 2 definidos

tanto por la variable Inseguridad como por la variable NBI presentan

promedios que no difieren significativamente entre sí. Por medio del ANOVA

Post Hoc, se confirma nuevamente la irrelevancia de la variable Inversión pues

los promedios comparados para cada grupo no difieren significativamente.

Por último, la variable Población también presenta dificultades en la mayoría

de las comparaciones entre las medias de los grupos.

Page 31: Análisis Cluster-Javiera Carmona López

Análisis Cluster - Alumna: Javiera Soledad Carmona López 31

31

Page 32: Análisis Cluster-Javiera Carmona López

Análisis Cluster - Alumna: Javiera Soledad Carmona López 32

32

Validación de Conglomerados Obtenidos

Para confirmar la solución obtenida del análisis cluster, se ha aplicado un

análisis factorial y análisis discriminante sobre la matriz de datos bajo estudio.

Análisis Factorial

A continuación se detalla el resultado del análisis factorial con la solución

rotada mediante el método Equamax. Para cuantificar las distancias entre las

variables se utiliza el coeficiente de correlación de Pearson y el método de

extracción de factores es por medio de

Componentes Principales.

La tabla muestra como en el primer factor saturan las variables Inseguridad,

Inversión, Población y NBI, mientras que, en el segundo factor satura,

fundamentalmente, la variable PBG.

El gráfico de Biplot muestra al grupo 1 más asociado a la variable PBG; el

grupo 2 a la variable Población y el grupo 3 se encuentra más asociado a la

variable NBI. Este resultado se correspondería con la solución hallada en el

análisis cluster.

Page 33: Análisis Cluster-Javiera Carmona López

Análisis Cluster - Alumna: Javiera Soledad Carmona López 33

33

Análisis Discriminante

Utilizando como variable de clasificación el “conglomerado de pertenencia”

resultante del análisis cluster se puede realizar un análisis discriminante para

interpretar la diferencia entre los grupos.

Page 34: Análisis Cluster-Javiera Carmona López

Análisis Cluster - Alumna: Javiera Soledad Carmona López 34

34

La figura muestra la distribución de las comunidades departamentales en el

espacio definido por las dos funciones discriminantes. Los departamentos del

grupo 1 obtienen puntuaciones medias en la primera función y puntuaciones

bajas en la segunda. Los departamentos del grupo 2 alcanzan puntuaciones

altas en las dos funciones discriminantes.

Los departamentos del grupo 3 tienen puntuaciones bajas en la primera

función y puntuaciones medias-altas en la segunda.

La tabla muestra la matriz de los coeficientes estandarizados de las dos

funciones discriminantes obtenidas. La primera función atribuye la mayor

importancia a Inseguridad,

Inversión y Población, mientras que la segunda función atribuye mayor

importancia al PBG y al NBI.

Se puede pensar que los departamentos del grupo 1 tienen niveles medios de

Inseguridad, Inversión y Población, nivel bajo de NBI y un alto PBG. El grupo 2

está constituido por los departamentos más poblados, con niveles altos de

Inseguridad, Inversión y NBI, como también niveles bajos de PBG. El grupo 3

está compuesto por departamentos con niveles bajos de Inseguridad, Inversión

y Población, con nivel medio bajo de PBG y con nivel medio-alto de NBI. Este

resultado es prácticamente semejante a las conclusiones del análisis cluster.

Aunque estos resultados no coinciden absolutamente con el análisis cluster se

puede deducir un perfil de los grupos muy próximo a la solución que provee

esta técnica.

Page 35: Análisis Cluster-Javiera Carmona López

Análisis Cluster - Alumna: Javiera Soledad Carmona López 35

35

7. Ejemplo Práctico R

Se realizó un análisis de componentes principales a un conjunto de datos

donde aparecían las características de técnicas de distintos coches, a partir

de la matriz de correlaciones se vio que con una componente podíamos

explicar el 88% de la varianza total del conjunto de datos. Pues ahora se

procederá a realizar sobre el valor que toma esta componente para cada

observación un análisis de agrupamiento.

Primero de todo se debe crear el conjunto de datos sobre el que vamos a

trabajar:

> x<-as.matrix(conjunto)

> y<-componentesI$vectors[1:7]

> comp.obs<-x %*% y

> comp.obs

[,1]

1 -2110.7416

...

30 -1218.8272

Tenemos un conjunto de datos con 30 observaciones y una variable. En todo

análisis cluster existen dos fases; en una primera fase a partir de los datos se

construye una matriz de distancias o similaridades y después se realiza el

proceso de agrupación de individuos. Como paso previo es interesante realizar

una representación gráfica de los datos para ver si se puede reconocer algún

grupo:

Page 36: Análisis Cluster-Javiera Carmona López

Análisis Cluster - Alumna: Javiera Soledad Carmona López 36

36

No parecen que se formen grupos diferenciados pero prosigamos para ver si

podemos aplicar una regla de agrupamiento. Disponemos de dos técnicas de

formación de cluster: técnicas jerárquicas aglo: merativas de formación de

conglomerados y técnicas no jerárquicas.

En este ejemplo se va a emplear la técnica jerárquica que consiste en

considerar en primera instancia cada observación como un cluster y

posteriormente agrupar las obsevarciones más "similares", las observaciones

que menos disten las unas de las otras, por eso lo primero que debemos hacer

es calcularnos una matriz de distancias entre pares de observaciones.

En este punto se realiza un inciso para explicar un aspecto de R que no había

comentado hasta ahora. Con R se puede hacer multitud de análisis

estadísticos y además existe un grupo de programadores que colaboran con

más paquetes y más programas. Para poder emplear estos paquetes es

Page 37: Análisis Cluster-Javiera Carmona López

Análisis Cluster - Alumna: Javiera Soledad Carmona López 37

37

necesario tenerlos en una librería library que en mi caso está en: C:\Archivos

de programa\R\rw1051\library En esta librería tengo todos los paquetes de los

que puedo disponer, pero cuando tu abres una sesión de R es necesario que

carges el paquete que vas a emplear. Para hacer esto está la

función library(nombre_librería) o bien abrimos el menú Packages de R y

seleccionamos el paquete que queremos utilizar. Os he contado esto porque

para realizar el análisis cluster necesitamos cargar en paquete mva:

> library(mva)

Ya estamos en disposición de poder empezar a realizar los cálculos pertinentes

para nuestro análisis. Como hemos dicho antes lo primero es calcular la matriz

de distancias y para ello tenemos la función dist:

> matriz.distancias<-dist(comp.obs)

Se ha creado una matriz diagonal de 30x30 a partir de la matriz de

componentes principales donde vienen recogidas las distancias. Por defecto

dist calcula la distancia euclídea entre observaciones, si se ejecuta ?dist el

archivo de ayuda le presenta las distintas distancias que se pueden calcular.

Una vez obtenida esta matriz hemos de emplear la

función hclust(<matriz_de_distancias>,method). En method indicamos por qué

método queremos que R realice los agrupamientos, veamos gráficamente los

métodos más comunes:

Cluster simple method="single"

Page 38: Análisis Cluster-Javiera Carmona López

Análisis Cluster - Alumna: Javiera Soledad Carmona López 38

38

Cluster completo method="complete"

Cluster promedio method="centroid"

También se tiene el método Ward que es una técnica inferencial de formación

de conglomerados que se basa en la minimización de la suma de cuadrados

dentro de los cluster que se pueden formar. Por defecto el método que tiene

hclust en "complete".

A continuación se muestra cómo funciona hclust:

> clusterI<-hclust(matriz.distancias)

> summary(clusterI)

Length Class Mode

merge 58 -none- numeric

height 29 -none- numeric

order 30 -none- numeric

labels 30 -none- character

method 1 -none- character

call 2 -none- call

dist.method 1 -none- character

Se ha creado un objeto clusterI que contiene 7 variables a partir de las cuales

realizaremos el análisis. R nos ha hecho las tareas de cálculo pero ahora somos

nosotros los que tenemos que continuar determinando cuantos grupos se

deben tomar y como analizar los grupos creados. Comenzamos "atacando" el

Page 39: Análisis Cluster-Javiera Carmona López

Análisis Cluster - Alumna: Javiera Soledad Carmona López 39

39

objeto clusterI creado viendo la variable merge. Esta variable merge indica

como se han ido formando los cluster:

> attach(clusterI)

> merge

[,1] [,2]

[1,] -3 -23 #se unen la obs 3 y la obs 23 que forman el

cluster '1'

[2,] -13 -19 #se unen las 13 y 19 formando el '2'

[3,] -1 -4 #la 1 y la 4

[4,] -26 3 #la 26 con el cluster 3 (observaciones 1 y 4)

formando el '4'

[5,] 1 2 #el cluster 1 y 2 formando de este modo el

cluster '5'

...

[27,] 24 25 #se unen el cluster 24 y 25

[28,] 20 26 #el 20 y el 26

[29,] 27 28 #el 27 y el 28

Esto ofrece una idea de la forma en la que se van uniendo, pero no se puede

establecer una regla de unión entre observaciones, sería más útil ordenar el

conjunto de datos de menor a mayor de forma que se pudiera hacer una

regla de unión entre observaciones (recordar: que cuanto menor es el valor de

la componente más potente y más grande es el coche) y de este modo se

podría ver intuitivamente la forma que tienen de unirse los datos. Para ordenar

los datos empleamos la función sort:

> ordenado<-sort(comp.obs)

> dist.ordenado<-dist(ordenado)

> clusterII<-hclust(dist.ordenado)

> attach(clusterII)

> merge

[,1] [,2]

[1,] -13 -14

[2,] -11 -12

[3,] -7 -8 #los gama media

[4,] -9 3 #enseguida se unen

[5,] 1 2

[6,] -22 -23 #los más simples

[7,] -16 -17 #se van uniendo

[8,] -10 5

[9,] -24 -25

[10,] -27 -28

[11,] -19 -20

[12,] -6 4

[13,] -29 -30

[14,] -15

Parece que los coches de gama media se unen enseguida, insistimos en que

la componente principal ofrecía una medida de la potencia-prestaciones-

Page 40: Análisis Cluster-Javiera Carmona López

Análisis Cluster - Alumna: Javiera Soledad Carmona López 40

40

tamaño de los coches, cuanto menor era la componente más potente, más

rápido y más grande era el coche. Pues como se decía los gama media se

unen con facilidad, también ocurre esto con los coches más pequeños que

son los siguientes en agruparse, por último son los coches "buenos" los que se

van agrupando. Poco a poco los gama media se acercan a los coches

buenos dejando de lado a las observaciones superiores a la 20ª como se

puede ver en los pasos [18] con observaciones 24,25,26; [23] con

observaciones 27,28,29,30 y [24] cuyas observaciones son 22,23,18,21,19,20

posteriormente en [25] y [27] se unen. Determinar el número de cluster con esta

variable merge es bastante complicado por eso no puede servir mejor para

analizar como se van creando los grupos. ¿Cómo determinar el número de

cluster?

En mi opinión la mejor manera es el análisis gráfico, el dendograma que es un

gráfico de formación de cluster, para hacerlo se emplea la

función plot.hclust(clusterII):

Page 41: Análisis Cluster-Javiera Carmona López

Análisis Cluster - Alumna: Javiera Soledad Carmona López 41

41

Este dendograma se puede admitir dos cortes que se exponen de manera

gráfica para que se entienda mejor, los cortes se han realizado con el paint de

Windows:

Page 42: Análisis Cluster-Javiera Carmona López

Análisis Cluster - Alumna: Javiera Soledad Carmona López 42

42

Estas son las 2 opciones que se plantean: en la primera opción se puede por

un lado formar dos grupos donde tendríamos los coches medianos-grandes

donde las observaciones 1, 2 y 3 parece que les cuesta unirse (son coches muy

potentes y grandes) y donde las observaciones de 4 a la 16 son muy

parecidos; y por el otro lado tenemos los coches utilitarios (observaciones de la

18 a la 30) que si se pueden considerar bastante parecidos entre sí aunque los

hay un poco mejores. La segunda opción sería el hacer los cuatro grupos

donde el grupo I encuadraría a los coches "menos malos" el grupo II a lo

"malos", el grupo III a los "mejores" y el grupo IV a los "buenos".

Este es el análisis mediante el método completo, veamos el dendograma para

el método promedio:

> clusterIII<-hclust(dist.ordenado,method="centroid")

> plot.hclust(clusterIII)

Page 43: Análisis Cluster-Javiera Carmona López

Análisis Cluster - Alumna: Javiera Soledad Carmona López 43

43

A la vista de este gráfico también se pueden hacer tres grupos, además por

este método se distinguen muy claramente las tres primeras observaciones

como los mejores coches quedando más unidos los coches "menos malos" con

los "buenos" con lo que se podía establecer un grupo que podían ser los

utilitarios dentro de los cuales los hay mejores y peores.

Page 44: Análisis Cluster-Javiera Carmona López

Análisis Cluster - Alumna: Javiera Soledad Carmona López 44

44

8. Conclusiones

Durante el desarrollo del informe se pudo apreciar que el análisis cluster puede

ser muy útil como técnica de reducción de datos. Pero dado que su

aplicación es más un arte que una ciencia, se puede abusar fácilmente o

aplicar mal por parte de los investigadores.

Diferentes algoritmos y medidas entre objetos pueden afectar a los resultados

existentes. La selección del conglomerado de la solución final se basa en la

mayoría de los casos tanto en consideraciones objetivas como subjetivas.

El investigador prudente, por lo tanto considera estos temas y siempre evalúa

el impacto de todas las decisiones.

El análisis cluster, junto con el análisis multidimensional, debido a su falta de

base estadística para inferir de la población, tiene una mayor necesidad de

aplicarse varias veces bajo condiciones cambiantes. Si el investigador procede

con cautela, sin embargo, el análisis cluster puede ser un instrumento valioso

en la identificación de pautas latentes mediante la sugerencia de

agrupaciones (conglomerados) de objetos que no son dicernibles mediante

otras técnicas multivariantes.

Page 45: Análisis Cluster-Javiera Carmona López

Análisis Cluster - Alumna: Javiera Soledad Carmona López 45

45

9. Bibliografía

Curso de R “Capítulo 10”. Consulta: 30/08/2013.

http://www.geocities.ws/r_vaquerizo/Manual_R10.html.

Curso de R. Consulta 30/08/2013.

http://www.geocities.ws/r_vaquerizo/Manual_R11.html.

Hair, Anderson Tatham & Black, 2008. Análisis multivariante, 5ta edición, pp. 491-532.

Mariel, P. Análisis cluster: una aplicación a los Departamentos de la provincia

de Córdoba.

Perea, J. Análisis multivariante para investigación en sistemas Agropecuarios.

Curso de Postgrado en Herramientas Estadísticas Avanzadas.

Pérez López C., Santín González D. “Minería de Datos: Técnicas y

Herramientas”. Thomson Paraninfo S. A. España. 2007. ISBN 978-84-9732-492-2.

Vicente, J.Introducción al Análisis de Cluster. Universidad de Salamanca.

Departamento de Estadística, pp 1-22.