Clustering

INTELIGENCIA ARTIFICIAL AVANZADA

CLASIFICACIÓN ANALISIS DE CLUSTERES: CLUSTERING

Autor: Guadalupe Ortega [email protected]

ANALISIS DE CLUSTERS

El análisis de clústers o clustering, es una colección de métodos estadísticos que permiten agrupar casos sobre los cuales se miden diferentes variables o características.

Uno de los problemas del análisis de clúster es que no existe una definición precisa de clúster. Lo cual ha originado el desarrollo de una gran cantidad de métodos, es así que los dos grandes grupos de métodos de clustering son: los jerárquicos y los no jerárquicos o particionales. En los primeros la pertenencia a un grupo o clúster en un nivel de la jerarquía condiciona la pertenencia a grupos de un nivel superior.

Los métodos particionales obtienen una única partición de los datos mediante la optimización de alguna función adecuada.


Estos métodos también son conocidos como métodos de optimización, además otro problema que estudia el análisis de clústers es la clasificación de variables.

Los métodos particionales utilizan la matriz de datos mientras que los jerárquicos parten de una matriz de distancias o similaridades.


Clustering(agrupamiento): Proceso de dividir un conjunto de datos en grupos mutuamente excluyentes de tal manera que cada miembro de un grupo esté lo “más cercano” posible a otro, y grupos diferentes estén lo “más lejos” posible uno del otro, donde la distancia está medida con respecto a todas las variables disponibles.

AGRUPAMIENTO CLUSTERING

Los métodos no supervisados (especialmente el clustering ) se usan cuando:• Recopilar y clasificar a mano es costoso• La caracterización de los patrones cambia con el

tiempo.• Permite encontrar caracterizaciones útiles para

construir clasificadores• El descubrimiento de grupos y subgrupos que

revele la naturaleza de la estructura del problema.

OBJETIVOS DEL CLUSTERING

El objetivo de ésta tarea es obtener grupos o conjuntos entre los elementos, de tal manera que los elementos asignados al mismo sean similares.

Lo importante del agrupamiento respecto a la clasificación es que son precisamente los grupos y la pertenencia a los grupos lo que se quiere determinar y a priori, no se sabe ni como son los grupos ni cuantos hay.

El agrupamiento se conoce muy frecuentemente también como: segmentación y aglomeración.

AGRUPAMIENTO DINÁMICO También conocido como k-means o Iterative Distance-based

Clustering. Necesita que se le proporcione a priori el n´umero de grupos k. El algoritmo es el siguiente:

agrupamiento: seleccionar al azar k ejemplos como centros iniciales de cada

grupo; repeat asignar cada ejemplo al grupo con menor distancia a su centro; recalcular los nuevos centros de cada grupo; until los grupos sean estables Los centros de cada grupo, también denominados centroides

pueden corresponderse con ejemplos o no, en ese caso se les denomina prototipos.

Los grupos se consideran estables cuando los ejemplos no cambian de grupo respecto la iteración anterior.

Se pueden obtener agrupaciones jerarquizadas tomando k = 2 y aplicando el mismo algoritmo de manera recursiva sobre los ejemplos de cada grupo.

APLICACIONES Robótica: utiliza un conjunto de técnicas y

conceptos teóricos comunes, como son la estimación bayesiana y modelos probabilísticas como métodos de representación o como son las técnicas de regresión y clustering para el aprendizaje.

Minería de Datos: Utiliza la transformación de los datos al formato requerido, por el algoritmo específico para la minería de datos, buscando patrones que puedan expresarse como modelo.

APLICACIONES

En Investigaciones Espaciales: Durante seis años, el Second Palomar Observatory Sky Survey (POSS-II) coleccionó tres terabytes de imágenes que contenían aproximadamente dos millones de objetos en el cielo. Tres mil fotografías fueron digitalizadas a una resolución de 16 bits por píxel con 23.040 x 23.040 píxeles por imagen. El objetivo era formar un catálogo de todos esos objetos. El sistema Sky Image Cataloguing and Analysis Tool (SKYCAT) se basa en técnicas de agrupación (clustering) y árboles de decisión para poder clasificar los objetos en estrellas, planetas, sistemas, galaxias, etc. Con una alta confiabilidad (Fayyad y otros, 1996). Los resultados han ayudado a los astrónomos a descubrir dieciséis nuevos quásars con corrimiento hacia el rojo que los incluye entre los objetos más lejanos del universo y, por consiguiente, más antiguos. Estos quásars son difíciles de encontrar y permiten saber más acerca de los orígenes del universo.

CONCLUSIONES

El clustering es una técnica muy útil para el acceso secuencial de grandes cantidades de datos.

El clustering se obtiene definiendo un índice clustering para una tabla, el cual determina el orden secuencial físico en el que se almacenan las filas en los conjuntos de datos.

Esta técnica es importante porque mejora drásticamente la rendimiento en del acceso secuencial, y este tipo de acceso es el mas usado en el procesamiento OLAP.

REFERENCIAS BIBLIOGRAFICAS

1 Aprendizaje Automático: Conceptos básicos y avanzados. Aspectos prácticos utilizando el software Weka. Basilio Sierra Araujo. Madrid, 2006.

2 Introducción a la Minería de Datos. José Hernández Orallo. Madrid, 2004.

Documents

Clustering