Upload
dhavilaj
View
546
Download
6
Embed Size (px)
DESCRIPTION
Introducción a la minería de datos y el apredizaje de maquina con ejemplo práctico y fuentes WEKA
Citation preview
Minería de DatosAprendizaje de Maquina
Clasi�cadoresCaso de Estudio [VC 2012-1]
Métricas de Evaluación y Desempeño
Minería de Datos - Aprendizaje de Maquina: Clasi�cadores
David H. Ávila Jaimes
Universidad Central
6 de Mayo de 2012
David H. Ávila Jaimes Minería de Datos - Aprendizaje de Maquina
Minería de DatosAprendizaje de Maquina
Clasi�cadoresCaso de Estudio [VC 2012-1]
Métricas de Evaluación y Desempeño
Aprendizaje de Maquina Y Minería de DatosMinería de Datos
El datamining (minería de datos), es el conjunto de técnicas ytecnologías que permiten explorar grandes bases de datos, demanera automática o semiautomática, con el objetivo deencontrar patrones repetitivos, tendencias o reglas queexpliquen el comportamiento de los datos en un determinadocontexto.
David H. Ávila Jaimes Minería de Datos - Aprendizaje de Maquina
Minería de DatosAprendizaje de Maquina
Clasi�cadoresCaso de Estudio [VC 2012-1]
Métricas de Evaluación y Desempeño
Aprendizaje de Maquina Y Minería de DatosMinería de Datos
Básicamente la minería de datos surge para intentar ayudar acomprender el contenido de un repositorio de datos. Con este�n, hace uso de prácticas estadísticas y, en algunos casos, dealgoritmos de búsqueda próximos a la Inteligencia Arti�cial y alas redes neuronales.
Clave:
Extracción de conocimiento a partir de fuentes masivas de datos.
David H. Ávila Jaimes Minería de Datos - Aprendizaje de Maquina
Minería de DatosAprendizaje de Maquina
Clasi�cadoresCaso de Estudio [VC 2012-1]
Métricas de Evaluación y Desempeño
Algoritmos de Aprendizaje
Aprendizaje de Maquina Y Minería de DatosAprendizaje
El origen del aprendizaje de maquina es tratar de emular algunasfunciones del cerebro humano por lo tanto es importante entenderel concepto de aprendizaje.
Según Wikipedia
El aprendizaje es el proceso a través del cual se adquieren o
modi�can habilidades, destrezas, conocimientos, conductas o
valores como resultado del estudio, la experiencia, la
instrucción, el razonamiento y la observación.
David H. Ávila Jaimes Minería de Datos - Aprendizaje de Maquina
Minería de DatosAprendizaje de Maquina
Clasi�cadoresCaso de Estudio [VC 2012-1]
Métricas de Evaluación y Desempeño
Algoritmos de Aprendizaje
Aprendizaje de Maquina Y Minería de DatosAprendizaje de Maquina
Aprendizaje de Máquina es una rama de la Inteligencia arti�cialcuyo objetivo es desarrollar técnicas que permitan a lascomputadoras aprender. De forma más concreta, se trata de crearprogramas capaces de generalizar comportamientos a partir de unainformación no estructurada suministrada en forma de ejemplos. Es,por lo tanto, un proceso de inducción del conocimiento.
El aprendizaje de maquina es es una emulación de varias
características humanas mediante técnicas, algoritmos y tecnologías
que buscan proveer de un conocimiento arti�cial a un sistema que
puede o no ser capaz de construir nuevos criterios o reglas de
aprendizaje.
David H. Ávila Jaimes Minería de Datos - Aprendizaje de Maquina
Minería de DatosAprendizaje de Maquina
Clasi�cadoresCaso de Estudio [VC 2012-1]
Métricas de Evaluación y Desempeño
Algoritmos de Aprendizaje
Aprendizaje de Maquina Y Minería de DatosAprendizaje de Maquina
Un sistema de aprendizaje que es capaz de aprender se basa en lossiguientes parámetros:
T: Tareas
P: Desempeño
E: Experiencia
Se dice que un programa aprende de una experiencia E conrespecto a una clase de tareas T y medida de desempeño P, sisu desempeño en las tareas T, de acuerdo con la medida P,mejora con la experiencia E.
David H. Ávila Jaimes Minería de Datos - Aprendizaje de Maquina
Minería de DatosAprendizaje de Maquina
Clasi�cadoresCaso de Estudio [VC 2012-1]
Métricas de Evaluación y Desempeño
Algoritmos de Aprendizaje
Aprendizaje de Maquina Y Minería de DatosAprendizaje de Maquina
Sin embargo un sistema puede mantener invariable su conocimientoen este caso el origen de su experiencia se puede basar solamenteen el entrenamiento asistido por un experto, es decir no cambia sucomportamiento a través del tiempo (esto curiosamente contradiceuna característica intrínseca del cerebro humano).
David H. Ávila Jaimes Minería de Datos - Aprendizaje de Maquina
Minería de DatosAprendizaje de Maquina
Clasi�cadoresCaso de Estudio [VC 2012-1]
Métricas de Evaluación y Desempeño
Algoritmos de Aprendizaje
Aprendizaje de MaquinaEjemplo
Caso: Aprender a jugar tiro al blanco (Ambiente natural)
Tarea: Lanzar dardos
Desempeño: Porcentaje de lanzamientos acertados
Experiencia: Base de datos de variables de lanzamiento y susresultados clasi�cados.
David H. Ávila Jaimes Minería de Datos - Aprendizaje de Maquina
Minería de DatosAprendizaje de Maquina
Clasi�cadoresCaso de Estudio [VC 2012-1]
Métricas de Evaluación y Desempeño
Algoritmos de Aprendizaje
Aprendizaje de MaquinaAlgoritmos de Aprendizaje
Algunos tipos o taxonomías de algoritmos de aprendizaje son:
Aprendizaje Supervisado
Produce una función que establece una correspondencia entrelas entradas y las salidas deseadas del sistema. Un ejemplo deeste tipo de algoritmo es el problema de clasi�cación, donde elsistema de aprendizaje trata de etiquetar (clasi�car) una seriede vectores utilizando una entre varias categorías (clases). Labase de conocimiento del sistema está formada por ejemplosde etiquetados anteriores.
David H. Ávila Jaimes Minería de Datos - Aprendizaje de Maquina
Minería de DatosAprendizaje de Maquina
Clasi�cadoresCaso de Estudio [VC 2012-1]
Métricas de Evaluación y Desempeño
Algoritmos de Aprendizaje
Aprendizaje de MaquinaAlgoritmos de Aprendizaje
Aprendizaje No supervisado
Todo el proceso de modelado se lleva a cabo sobre un conjuntode ejemplos formado tan sólo por entradas al sistema. No setiene información sobre las categorías de esos ejemplos. Por lotanto, en este caso, el sistema tiene que ser capaz dereconocer patrones para poder etiquetar las nuevas entradas.
David H. Ávila Jaimes Minería de Datos - Aprendizaje de Maquina
Minería de DatosAprendizaje de Maquina
Clasi�cadoresCaso de Estudio [VC 2012-1]
Métricas de Evaluación y Desempeño
Algoritmos de Aprendizaje
Aprendizaje de MaquinaAlgoritmos de Aprendizaje
Aprendizaje Semi-supervisado
Este tipo de algoritmos combinan los dos algoritmos anteriorespara poder clasi�car de manera adecuada. Se tiene en cuentalos datos marcados y los no marcados.
David H. Ávila Jaimes Minería de Datos - Aprendizaje de Maquina
Minería de DatosAprendizaje de Maquina
Clasi�cadoresCaso de Estudio [VC 2012-1]
Métricas de Evaluación y Desempeño
Algoritmos de Aprendizaje
Aprendizaje de MaquinaAlgoritmos de Aprendizaje
Aprendizaje por refuerzo
El algoritmo aprende observando el mundo que le rodea. Suinformación de entrada es el feedback o retroalimentación queobtiene del mundo exterior como respuesta a sus acciones. Porlo tanto, el sistema aprende a base de ensayo-error.
David H. Ávila Jaimes Minería de Datos - Aprendizaje de Maquina
Minería de DatosAprendizaje de Maquina
Clasi�cadoresCaso de Estudio [VC 2012-1]
Métricas de Evaluación y Desempeño
Clasi�cadoresDe�nición
1 Es un elemento o sistema que proporciona una claseetiquetada como salida a partir de un conjunto decaracterísticas tomadas como entradas.
2 Es un elemento o sistema encargado de establecer unaconexión entre un grupo de instancias conocidas y otras queno, en general debe predecir el comportamiento de unainstancia desconocida.
David H. Ávila Jaimes Minería de Datos - Aprendizaje de Maquina
Minería de DatosAprendizaje de Maquina
Clasi�cadoresCaso de Estudio [VC 2012-1]
Métricas de Evaluación y Desempeño
Clasi�cadores¾Cómo se pueden construir?
Tomando un conjunto de ejemplos etiquetados y tratar de de�nir una
regla que pueda asignar una etiqueta a cualquier otro dato de entrada. **
Ensayando todas las opciones posibles y el resultado consecuente. **
En general
[**]Los clasi�cadores se basan en un tipo de aprendizaje yun algoritmo asociado estas dos características modelan lasparticularidades de un clasi�cador.
David H. Ávila Jaimes Minería de Datos - Aprendizaje de Maquina
Minería de DatosAprendizaje de Maquina
Clasi�cadoresCaso de Estudio [VC 2012-1]
Métricas de Evaluación y Desempeño
K-NNK- Nearest Neighbors
El Algoritmo de los K vecinos más cercanos corresponde a lacategoría de aprendizaje supervisado y se puede aplicar a lastemáticas de nuestro curso de visión por computador considerandoque para cada caso:
Se conocen las clases existentes en el problema.
Se conoce la clase concreta a la que pertenece cada objeto delconjunto de datos.
David H. Ávila Jaimes Minería de Datos - Aprendizaje de Maquina
Minería de DatosAprendizaje de Maquina
Clasi�cadoresCaso de Estudio [VC 2012-1]
Métricas de Evaluación y Desempeño
K-NNFuncionamiento
El Algoritmo KNN clasi�ca una instancia desconocida dentro de lasclases establecidas (entrenamiento) basandoce en la ubicación de lamisma en un espacio establecido por los atributos de las clasesconocidas, es decir etiqueta la instancia nueva de acuerdo a suproximidad y similitud con k instancias.
Figura: Espacio de clasi�cación
Si no se considera ninguna variante del algoritmo la nueva instanciase clasi�caría en la clase B.
David H. Ávila Jaimes Minería de Datos - Aprendizaje de Maquina
Minería de DatosAprendizaje de Maquina
Clasi�cadoresCaso de Estudio [VC 2012-1]
Métricas de Evaluación y Desempeño
K-NNEjemplo # 1
Según el espacio de clasi�cación anterior si una nueva instancia ?debiera ser clasi�cada con un K=3
Figura: K=3, Instancia ? desconocida
Si no se considera ninguna variante del algoritmo la nueva instanciase clasi�caría en la clase B.
David H. Ávila Jaimes Minería de Datos - Aprendizaje de Maquina
Minería de DatosAprendizaje de Maquina
Clasi�cadoresCaso de Estudio [VC 2012-1]
Métricas de Evaluación y Desempeño
K-NNEjemplo # 2
Según el espacio de clasi�cación anterior si una nueva instancia ?debiera ser clasi�cada con un K=3
Figura: K=3, Instancia ? desconocida
Si no se considera ninguna variante del algoritmo la nueva instanciase clasi�caría en la clase A [mas por el valor de K que por similitud].
David H. Ávila Jaimes Minería de Datos - Aprendizaje de Maquina
Minería de DatosAprendizaje de Maquina
Clasi�cadoresCaso de Estudio [VC 2012-1]
Métricas de Evaluación y Desempeño
K-NNEjemplo # 3
Para evitar errores al seleccionar un valor para K se pueden asignarpesos a los vecinos en su orden de proximidad
Figura: K=3, Instancia ? desconocida, manejo de pesos
Con esta variante de pesos la nueva instancia se clasi�caría en laclase C .
David H. Ávila Jaimes Minería de Datos - Aprendizaje de Maquina
Minería de DatosAprendizaje de Maquina
Clasi�cadoresCaso de Estudio [VC 2012-1]
Métricas de Evaluación y Desempeño
K-NNEjemplo # 4
Según el espacio de clasi�cación anterior si una nueva instancia ?debiera ser clasi�cada con un K=3
Figura: K=3, Instancia ? desconocida, manejo de pesos
Si no se considera ninguna variante del algoritmo la nueva instanciase clasi�caría en la clase B .
David H. Ávila Jaimes Minería de Datos - Aprendizaje de Maquina
Minería de DatosAprendizaje de Maquina
Clasi�cadoresCaso de Estudio [VC 2012-1]
Métricas de Evaluación y Desempeño
K-NNVentajas
+ Factores positivos
Es un algoritmos de baja complejidad.
Con valores adecuados de K (>1) se obtienen buenosrendimientos incluso considerando ruido en las instancias deaprendizaje.
Permite múltiples y simples modi�caciones que se adaptan aproblemas especí�cos.
David H. Ávila Jaimes Minería de Datos - Aprendizaje de Maquina
Minería de DatosAprendizaje de Maquina
Clasi�cadoresCaso de Estudio [VC 2012-1]
Métricas de Evaluación y Desempeño
K-NNVentajas
- Factores Negativos
Es poco e�ciente en memoria ya que requiere teneralmacenada toda la data de entrenamiento.
Existen algoritmos con mayor tasa relativa de acierto porejemplo redes neuronales.
Permite múltiples y simples modi�caciones que se adaptan aproblemas especí�cos.
David H. Ávila Jaimes Minería de Datos - Aprendizaje de Maquina
Minería de DatosAprendizaje de Maquina
Clasi�cadoresCaso de Estudio [VC 2012-1]
Métricas de Evaluación y Desempeño
K-NNImplementación WEKA
Para cada contexto se requiere de un conjunto de datos (dataset),este conjunto de ejemplos se divide en dos subconjuntos:
1 Entrenamiento: Utilizado para aprender el clasi�cador.2 Test: Se usa para validarlo.
Weka es un proyecto de la universidad de waikato en NuevaZelanda que permite usar entre otros el algoritmo KNN para crear yprobar clasi�cadores.
David H. Ávila Jaimes Minería de Datos - Aprendizaje de Maquina
Minería de DatosAprendizaje de Maquina
Clasi�cadoresCaso de Estudio [VC 2012-1]
Métricas de Evaluación y Desempeño
K-NNImplementación WEKA
Este documento se acompaña de un vídeo-tutorial que muestracomo crear y probar un clasi�cador usando la implementacióndisponible en Weka (IBK) , El caso del ejemplo es la identi�caciónde personas mediante rostros usando descriptores de textura[Momentos de Haralick], sin embargo el procedimiento es el mismopara otro tipo de descriptores.
Vídeo tutorial:http://www.youtube.com/watch?v=JyhIpsYX3v4
David H. Ávila Jaimes Minería de Datos - Aprendizaje de Maquina
Minería de DatosAprendizaje de Maquina
Clasi�cadoresCaso de Estudio [VC 2012-1]
Métricas de Evaluación y Desempeño
Métricas de Evaluación y Desempeño
Existen métricas que permiten evaluar la �calidad� de unclasi�cador así como estimar su calidad respecto a otros. Lassiguientes son las principales métricas de evaluación y se orientanprincipalmente a los resultados:
Precisión (porcentaje de casos clasi�cados correctamente).
Sensibilidad (la probabilidad de que una evento sea detectadacuando realmente ocurre).
Especi�cidad (es el complemento de la sensibilidad).
E�ciencia (tiempo necesario para construir/usar elclasi�cador).
David H. Ávila Jaimes Minería de Datos - Aprendizaje de Maquina
Minería de DatosAprendizaje de Maquina
Clasi�cadoresCaso de Estudio [VC 2012-1]
Métricas de Evaluación y Desempeño
Métricas de Evaluación y Desempeño
Las siguientes son las principales métricas de evaluación orientadasa la construcción del clasi�cador y la elección de los algoritmos:
Robustez (frente a ruido y valores nulos).
Escalabilidad (utilidad en grandes bases de datos) .
David H. Ávila Jaimes Minería de Datos - Aprendizaje de Maquina
Minería de DatosAprendizaje de Maquina
Clasi�cadoresCaso de Estudio [VC 2012-1]
Métricas de Evaluación y Desempeño
Métricas de Evaluación y Desempeño
Para evaluar las métricas se deben considerar sobre los resultadosde la clasi�cación los siguientes parámetros:
PV: Positivos verdaderos
NV: Negativos verdaderos
FP: Falsos positivos
FN: Falsos negativos
David H. Ávila Jaimes Minería de Datos - Aprendizaje de Maquina
Minería de DatosAprendizaje de Maquina
Clasi�cadoresCaso de Estudio [VC 2012-1]
Métricas de Evaluación y Desempeño
Métricas de Evaluación y DesempeñoMatriz de Confusión
Los parámetros anteriores se pueden obtener de la matriz deconfusión propia de los resultados.
Figura: Matriz de confusión, Clases a,b y c.
David H. Ávila Jaimes Minería de Datos - Aprendizaje de Maquina
Minería de DatosAprendizaje de Maquina
Clasi�cadoresCaso de Estudio [VC 2012-1]
Métricas de Evaluación y Desempeño
Métricas de Evaluación y Desempeño
Para la clase c con base en la matriz de confusión anterior (50instancias para c, 150 en total):
PV: Positivos verdaderos 46
NV: Negativos verdaderos (50+47)= 97
FP: Falsos positivos 4
FN: Falsos negativos 3
David H. Ávila Jaimes Minería de Datos - Aprendizaje de Maquina
Minería de DatosAprendizaje de Maquina
Clasi�cadoresCaso de Estudio [VC 2012-1]
Métricas de Evaluación y Desempeño
Métricas de Evaluación y DesempeñoMétricas
Formulas
Precisión: PV / (PV+FP)
Sensibilidad: PV / (PV+FN)
Especi�cidad: NV / (NV+FP)
David H. Ávila Jaimes Minería de Datos - Aprendizaje de Maquina
Minería de DatosAprendizaje de Maquina
Clasi�cadoresCaso de Estudio [VC 2012-1]
Métricas de Evaluación y Desempeño
Bibliografía
http://www.sinnexus.com/business_intelligence/datamining.aspx
http://es.wikipedia.org/wiki/Aprendizaje
http://dis.unal.edu.co/~fgonza/courses/2007-I/ml/ml-01-introduction.pdf
http://es.wikipedia.org/wiki/Aprendizaje_autom%C3%A1tico
http://www.it.uc3m.es/jvillena/irc/practicas/08-09/06.pdf
http://www.info-ab.uclm.es/asignaturas/42633/material/tema9-imprimir.pdf
http://www.academicos.ccadet.unam.mx/fernando.arambula/aim-tema-2.2.pdf
David H. Ávila Jaimes Minería de Datos - Aprendizaje de Maquina