31

Minería de Datos y Aprendizaje

Embed Size (px)

DESCRIPTION

Introducción a la minería de datos y el apredizaje de maquina con ejemplo práctico y fuentes WEKA

Citation preview

Page 1: Minería de Datos y Aprendizaje

Minería de DatosAprendizaje de Maquina

Clasi�cadoresCaso de Estudio [VC 2012-1]

Métricas de Evaluación y Desempeño

Minería de Datos - Aprendizaje de Maquina: Clasi�cadores

David H. Ávila Jaimes

Universidad Central

6 de Mayo de 2012

David H. Ávila Jaimes Minería de Datos - Aprendizaje de Maquina

Page 2: Minería de Datos y Aprendizaje

Minería de DatosAprendizaje de Maquina

Clasi�cadoresCaso de Estudio [VC 2012-1]

Métricas de Evaluación y Desempeño

Aprendizaje de Maquina Y Minería de DatosMinería de Datos

El datamining (minería de datos), es el conjunto de técnicas ytecnologías que permiten explorar grandes bases de datos, demanera automática o semiautomática, con el objetivo deencontrar patrones repetitivos, tendencias o reglas queexpliquen el comportamiento de los datos en un determinadocontexto.

David H. Ávila Jaimes Minería de Datos - Aprendizaje de Maquina

Page 3: Minería de Datos y Aprendizaje

Minería de DatosAprendizaje de Maquina

Clasi�cadoresCaso de Estudio [VC 2012-1]

Métricas de Evaluación y Desempeño

Aprendizaje de Maquina Y Minería de DatosMinería de Datos

Básicamente la minería de datos surge para intentar ayudar acomprender el contenido de un repositorio de datos. Con este�n, hace uso de prácticas estadísticas y, en algunos casos, dealgoritmos de búsqueda próximos a la Inteligencia Arti�cial y alas redes neuronales.

Clave:

Extracción de conocimiento a partir de fuentes masivas de datos.

David H. Ávila Jaimes Minería de Datos - Aprendizaje de Maquina

Page 4: Minería de Datos y Aprendizaje

Minería de DatosAprendizaje de Maquina

Clasi�cadoresCaso de Estudio [VC 2012-1]

Métricas de Evaluación y Desempeño

Algoritmos de Aprendizaje

Aprendizaje de Maquina Y Minería de DatosAprendizaje

El origen del aprendizaje de maquina es tratar de emular algunasfunciones del cerebro humano por lo tanto es importante entenderel concepto de aprendizaje.

Según Wikipedia

El aprendizaje es el proceso a través del cual se adquieren o

modi�can habilidades, destrezas, conocimientos, conductas o

valores como resultado del estudio, la experiencia, la

instrucción, el razonamiento y la observación.

David H. Ávila Jaimes Minería de Datos - Aprendizaje de Maquina

Page 5: Minería de Datos y Aprendizaje

Minería de DatosAprendizaje de Maquina

Clasi�cadoresCaso de Estudio [VC 2012-1]

Métricas de Evaluación y Desempeño

Algoritmos de Aprendizaje

Aprendizaje de Maquina Y Minería de DatosAprendizaje de Maquina

Aprendizaje de Máquina es una rama de la Inteligencia arti�cialcuyo objetivo es desarrollar técnicas que permitan a lascomputadoras aprender. De forma más concreta, se trata de crearprogramas capaces de generalizar comportamientos a partir de unainformación no estructurada suministrada en forma de ejemplos. Es,por lo tanto, un proceso de inducción del conocimiento.

El aprendizaje de maquina es es una emulación de varias

características humanas mediante técnicas, algoritmos y tecnologías

que buscan proveer de un conocimiento arti�cial a un sistema que

puede o no ser capaz de construir nuevos criterios o reglas de

aprendizaje.

David H. Ávila Jaimes Minería de Datos - Aprendizaje de Maquina

Page 6: Minería de Datos y Aprendizaje

Minería de DatosAprendizaje de Maquina

Clasi�cadoresCaso de Estudio [VC 2012-1]

Métricas de Evaluación y Desempeño

Algoritmos de Aprendizaje

Aprendizaje de Maquina Y Minería de DatosAprendizaje de Maquina

Un sistema de aprendizaje que es capaz de aprender se basa en lossiguientes parámetros:

T: Tareas

P: Desempeño

E: Experiencia

Se dice que un programa aprende de una experiencia E conrespecto a una clase de tareas T y medida de desempeño P, sisu desempeño en las tareas T, de acuerdo con la medida P,mejora con la experiencia E.

David H. Ávila Jaimes Minería de Datos - Aprendizaje de Maquina

Page 7: Minería de Datos y Aprendizaje

Minería de DatosAprendizaje de Maquina

Clasi�cadoresCaso de Estudio [VC 2012-1]

Métricas de Evaluación y Desempeño

Algoritmos de Aprendizaje

Aprendizaje de Maquina Y Minería de DatosAprendizaje de Maquina

Sin embargo un sistema puede mantener invariable su conocimientoen este caso el origen de su experiencia se puede basar solamenteen el entrenamiento asistido por un experto, es decir no cambia sucomportamiento a través del tiempo (esto curiosamente contradiceuna característica intrínseca del cerebro humano).

David H. Ávila Jaimes Minería de Datos - Aprendizaje de Maquina

Page 8: Minería de Datos y Aprendizaje

Minería de DatosAprendizaje de Maquina

Clasi�cadoresCaso de Estudio [VC 2012-1]

Métricas de Evaluación y Desempeño

Algoritmos de Aprendizaje

Aprendizaje de MaquinaEjemplo

Caso: Aprender a jugar tiro al blanco (Ambiente natural)

Tarea: Lanzar dardos

Desempeño: Porcentaje de lanzamientos acertados

Experiencia: Base de datos de variables de lanzamiento y susresultados clasi�cados.

David H. Ávila Jaimes Minería de Datos - Aprendizaje de Maquina

Page 9: Minería de Datos y Aprendizaje

Minería de DatosAprendizaje de Maquina

Clasi�cadoresCaso de Estudio [VC 2012-1]

Métricas de Evaluación y Desempeño

Algoritmos de Aprendizaje

Aprendizaje de MaquinaAlgoritmos de Aprendizaje

Algunos tipos o taxonomías de algoritmos de aprendizaje son:

Aprendizaje Supervisado

Produce una función que establece una correspondencia entrelas entradas y las salidas deseadas del sistema. Un ejemplo deeste tipo de algoritmo es el problema de clasi�cación, donde elsistema de aprendizaje trata de etiquetar (clasi�car) una seriede vectores utilizando una entre varias categorías (clases). Labase de conocimiento del sistema está formada por ejemplosde etiquetados anteriores.

David H. Ávila Jaimes Minería de Datos - Aprendizaje de Maquina

Page 10: Minería de Datos y Aprendizaje

Minería de DatosAprendizaje de Maquina

Clasi�cadoresCaso de Estudio [VC 2012-1]

Métricas de Evaluación y Desempeño

Algoritmos de Aprendizaje

Aprendizaje de MaquinaAlgoritmos de Aprendizaje

Aprendizaje No supervisado

Todo el proceso de modelado se lleva a cabo sobre un conjuntode ejemplos formado tan sólo por entradas al sistema. No setiene información sobre las categorías de esos ejemplos. Por lotanto, en este caso, el sistema tiene que ser capaz dereconocer patrones para poder etiquetar las nuevas entradas.

David H. Ávila Jaimes Minería de Datos - Aprendizaje de Maquina

Page 11: Minería de Datos y Aprendizaje

Minería de DatosAprendizaje de Maquina

Clasi�cadoresCaso de Estudio [VC 2012-1]

Métricas de Evaluación y Desempeño

Algoritmos de Aprendizaje

Aprendizaje de MaquinaAlgoritmos de Aprendizaje

Aprendizaje Semi-supervisado

Este tipo de algoritmos combinan los dos algoritmos anteriorespara poder clasi�car de manera adecuada. Se tiene en cuentalos datos marcados y los no marcados.

David H. Ávila Jaimes Minería de Datos - Aprendizaje de Maquina

Page 12: Minería de Datos y Aprendizaje

Minería de DatosAprendizaje de Maquina

Clasi�cadoresCaso de Estudio [VC 2012-1]

Métricas de Evaluación y Desempeño

Algoritmos de Aprendizaje

Aprendizaje de MaquinaAlgoritmos de Aprendizaje

Aprendizaje por refuerzo

El algoritmo aprende observando el mundo que le rodea. Suinformación de entrada es el feedback o retroalimentación queobtiene del mundo exterior como respuesta a sus acciones. Porlo tanto, el sistema aprende a base de ensayo-error.

David H. Ávila Jaimes Minería de Datos - Aprendizaje de Maquina

Page 13: Minería de Datos y Aprendizaje

Minería de DatosAprendizaje de Maquina

Clasi�cadoresCaso de Estudio [VC 2012-1]

Métricas de Evaluación y Desempeño

Clasi�cadoresDe�nición

1 Es un elemento o sistema que proporciona una claseetiquetada como salida a partir de un conjunto decaracterísticas tomadas como entradas.

2 Es un elemento o sistema encargado de establecer unaconexión entre un grupo de instancias conocidas y otras queno, en general debe predecir el comportamiento de unainstancia desconocida.

David H. Ávila Jaimes Minería de Datos - Aprendizaje de Maquina

Page 14: Minería de Datos y Aprendizaje

Minería de DatosAprendizaje de Maquina

Clasi�cadoresCaso de Estudio [VC 2012-1]

Métricas de Evaluación y Desempeño

Clasi�cadores¾Cómo se pueden construir?

Tomando un conjunto de ejemplos etiquetados y tratar de de�nir una

regla que pueda asignar una etiqueta a cualquier otro dato de entrada. **

Ensayando todas las opciones posibles y el resultado consecuente. **

En general

[**]Los clasi�cadores se basan en un tipo de aprendizaje yun algoritmo asociado estas dos características modelan lasparticularidades de un clasi�cador.

David H. Ávila Jaimes Minería de Datos - Aprendizaje de Maquina

Page 15: Minería de Datos y Aprendizaje

Minería de DatosAprendizaje de Maquina

Clasi�cadoresCaso de Estudio [VC 2012-1]

Métricas de Evaluación y Desempeño

K-NNK- Nearest Neighbors

El Algoritmo de los K vecinos más cercanos corresponde a lacategoría de aprendizaje supervisado y se puede aplicar a lastemáticas de nuestro curso de visión por computador considerandoque para cada caso:

Se conocen las clases existentes en el problema.

Se conoce la clase concreta a la que pertenece cada objeto delconjunto de datos.

David H. Ávila Jaimes Minería de Datos - Aprendizaje de Maquina

Page 16: Minería de Datos y Aprendizaje

Minería de DatosAprendizaje de Maquina

Clasi�cadoresCaso de Estudio [VC 2012-1]

Métricas de Evaluación y Desempeño

K-NNFuncionamiento

El Algoritmo KNN clasi�ca una instancia desconocida dentro de lasclases establecidas (entrenamiento) basandoce en la ubicación de lamisma en un espacio establecido por los atributos de las clasesconocidas, es decir etiqueta la instancia nueva de acuerdo a suproximidad y similitud con k instancias.

Figura: Espacio de clasi�cación

Si no se considera ninguna variante del algoritmo la nueva instanciase clasi�caría en la clase B.

David H. Ávila Jaimes Minería de Datos - Aprendizaje de Maquina

Page 17: Minería de Datos y Aprendizaje

Minería de DatosAprendizaje de Maquina

Clasi�cadoresCaso de Estudio [VC 2012-1]

Métricas de Evaluación y Desempeño

K-NNEjemplo # 1

Según el espacio de clasi�cación anterior si una nueva instancia ?debiera ser clasi�cada con un K=3

Figura: K=3, Instancia ? desconocida

Si no se considera ninguna variante del algoritmo la nueva instanciase clasi�caría en la clase B.

David H. Ávila Jaimes Minería de Datos - Aprendizaje de Maquina

Page 18: Minería de Datos y Aprendizaje

Minería de DatosAprendizaje de Maquina

Clasi�cadoresCaso de Estudio [VC 2012-1]

Métricas de Evaluación y Desempeño

K-NNEjemplo # 2

Según el espacio de clasi�cación anterior si una nueva instancia ?debiera ser clasi�cada con un K=3

Figura: K=3, Instancia ? desconocida

Si no se considera ninguna variante del algoritmo la nueva instanciase clasi�caría en la clase A [mas por el valor de K que por similitud].

David H. Ávila Jaimes Minería de Datos - Aprendizaje de Maquina

Page 19: Minería de Datos y Aprendizaje

Minería de DatosAprendizaje de Maquina

Clasi�cadoresCaso de Estudio [VC 2012-1]

Métricas de Evaluación y Desempeño

K-NNEjemplo # 3

Para evitar errores al seleccionar un valor para K se pueden asignarpesos a los vecinos en su orden de proximidad

Figura: K=3, Instancia ? desconocida, manejo de pesos

Con esta variante de pesos la nueva instancia se clasi�caría en laclase C .

David H. Ávila Jaimes Minería de Datos - Aprendizaje de Maquina

Page 20: Minería de Datos y Aprendizaje

Minería de DatosAprendizaje de Maquina

Clasi�cadoresCaso de Estudio [VC 2012-1]

Métricas de Evaluación y Desempeño

K-NNEjemplo # 4

Según el espacio de clasi�cación anterior si una nueva instancia ?debiera ser clasi�cada con un K=3

Figura: K=3, Instancia ? desconocida, manejo de pesos

Si no se considera ninguna variante del algoritmo la nueva instanciase clasi�caría en la clase B .

David H. Ávila Jaimes Minería de Datos - Aprendizaje de Maquina

Page 21: Minería de Datos y Aprendizaje

Minería de DatosAprendizaje de Maquina

Clasi�cadoresCaso de Estudio [VC 2012-1]

Métricas de Evaluación y Desempeño

K-NNVentajas

+ Factores positivos

Es un algoritmos de baja complejidad.

Con valores adecuados de K (>1) se obtienen buenosrendimientos incluso considerando ruido en las instancias deaprendizaje.

Permite múltiples y simples modi�caciones que se adaptan aproblemas especí�cos.

David H. Ávila Jaimes Minería de Datos - Aprendizaje de Maquina

Page 22: Minería de Datos y Aprendizaje

Minería de DatosAprendizaje de Maquina

Clasi�cadoresCaso de Estudio [VC 2012-1]

Métricas de Evaluación y Desempeño

K-NNVentajas

- Factores Negativos

Es poco e�ciente en memoria ya que requiere teneralmacenada toda la data de entrenamiento.

Existen algoritmos con mayor tasa relativa de acierto porejemplo redes neuronales.

Permite múltiples y simples modi�caciones que se adaptan aproblemas especí�cos.

David H. Ávila Jaimes Minería de Datos - Aprendizaje de Maquina

Page 23: Minería de Datos y Aprendizaje

Minería de DatosAprendizaje de Maquina

Clasi�cadoresCaso de Estudio [VC 2012-1]

Métricas de Evaluación y Desempeño

K-NNImplementación WEKA

Para cada contexto se requiere de un conjunto de datos (dataset),este conjunto de ejemplos se divide en dos subconjuntos:

1 Entrenamiento: Utilizado para aprender el clasi�cador.2 Test: Se usa para validarlo.

Weka es un proyecto de la universidad de waikato en NuevaZelanda que permite usar entre otros el algoritmo KNN para crear yprobar clasi�cadores.

David H. Ávila Jaimes Minería de Datos - Aprendizaje de Maquina

Page 24: Minería de Datos y Aprendizaje

Minería de DatosAprendizaje de Maquina

Clasi�cadoresCaso de Estudio [VC 2012-1]

Métricas de Evaluación y Desempeño

K-NNImplementación WEKA

Este documento se acompaña de un vídeo-tutorial que muestracomo crear y probar un clasi�cador usando la implementacióndisponible en Weka (IBK) , El caso del ejemplo es la identi�caciónde personas mediante rostros usando descriptores de textura[Momentos de Haralick], sin embargo el procedimiento es el mismopara otro tipo de descriptores.

Vídeo tutorial:http://www.youtube.com/watch?v=JyhIpsYX3v4

David H. Ávila Jaimes Minería de Datos - Aprendizaje de Maquina

Page 25: Minería de Datos y Aprendizaje

Minería de DatosAprendizaje de Maquina

Clasi�cadoresCaso de Estudio [VC 2012-1]

Métricas de Evaluación y Desempeño

Métricas de Evaluación y Desempeño

Existen métricas que permiten evaluar la �calidad� de unclasi�cador así como estimar su calidad respecto a otros. Lassiguientes son las principales métricas de evaluación y se orientanprincipalmente a los resultados:

Precisión (porcentaje de casos clasi�cados correctamente).

Sensibilidad (la probabilidad de que una evento sea detectadacuando realmente ocurre).

Especi�cidad (es el complemento de la sensibilidad).

E�ciencia (tiempo necesario para construir/usar elclasi�cador).

David H. Ávila Jaimes Minería de Datos - Aprendizaje de Maquina

Page 26: Minería de Datos y Aprendizaje

Minería de DatosAprendizaje de Maquina

Clasi�cadoresCaso de Estudio [VC 2012-1]

Métricas de Evaluación y Desempeño

Métricas de Evaluación y Desempeño

Las siguientes son las principales métricas de evaluación orientadasa la construcción del clasi�cador y la elección de los algoritmos:

Robustez (frente a ruido y valores nulos).

Escalabilidad (utilidad en grandes bases de datos) .

David H. Ávila Jaimes Minería de Datos - Aprendizaje de Maquina

Page 27: Minería de Datos y Aprendizaje

Minería de DatosAprendizaje de Maquina

Clasi�cadoresCaso de Estudio [VC 2012-1]

Métricas de Evaluación y Desempeño

Métricas de Evaluación y Desempeño

Para evaluar las métricas se deben considerar sobre los resultadosde la clasi�cación los siguientes parámetros:

PV: Positivos verdaderos

NV: Negativos verdaderos

FP: Falsos positivos

FN: Falsos negativos

David H. Ávila Jaimes Minería de Datos - Aprendizaje de Maquina

Page 28: Minería de Datos y Aprendizaje

Minería de DatosAprendizaje de Maquina

Clasi�cadoresCaso de Estudio [VC 2012-1]

Métricas de Evaluación y Desempeño

Métricas de Evaluación y DesempeñoMatriz de Confusión

Los parámetros anteriores se pueden obtener de la matriz deconfusión propia de los resultados.

Figura: Matriz de confusión, Clases a,b y c.

David H. Ávila Jaimes Minería de Datos - Aprendizaje de Maquina

Page 29: Minería de Datos y Aprendizaje

Minería de DatosAprendizaje de Maquina

Clasi�cadoresCaso de Estudio [VC 2012-1]

Métricas de Evaluación y Desempeño

Métricas de Evaluación y Desempeño

Para la clase c con base en la matriz de confusión anterior (50instancias para c, 150 en total):

PV: Positivos verdaderos 46

NV: Negativos verdaderos (50+47)= 97

FP: Falsos positivos 4

FN: Falsos negativos 3

David H. Ávila Jaimes Minería de Datos - Aprendizaje de Maquina

Page 30: Minería de Datos y Aprendizaje

Minería de DatosAprendizaje de Maquina

Clasi�cadoresCaso de Estudio [VC 2012-1]

Métricas de Evaluación y Desempeño

Métricas de Evaluación y DesempeñoMétricas

Formulas

Precisión: PV / (PV+FP)

Sensibilidad: PV / (PV+FN)

Especi�cidad: NV / (NV+FP)

David H. Ávila Jaimes Minería de Datos - Aprendizaje de Maquina

Page 31: Minería de Datos y Aprendizaje

Minería de DatosAprendizaje de Maquina

Clasi�cadoresCaso de Estudio [VC 2012-1]

Métricas de Evaluación y Desempeño

Bibliografía

http://www.sinnexus.com/business_intelligence/datamining.aspx

http://es.wikipedia.org/wiki/Aprendizaje

http://dis.unal.edu.co/~fgonza/courses/2007-I/ml/ml-01-introduction.pdf

http://es.wikipedia.org/wiki/Aprendizaje_autom%C3%A1tico

http://www.it.uc3m.es/jvillena/irc/practicas/08-09/06.pdf

http://www.info-ab.uclm.es/asignaturas/42633/material/tema9-imprimir.pdf

http://www.academicos.ccadet.unam.mx/fernando.arambula/aim-tema-2.2.pdf

David H. Ávila Jaimes Minería de Datos - Aprendizaje de Maquina