62
Técnicas de Minería de Datos Centro Universitario Valle de México estría en Ciencias de la Computaci Minería de Datos Dra. Maricela Quintana Lópe Elaborado por:

Técnicas de Minería de Datos Centro Universitario Valle de México Minería de Datos Dra. Maricela Quintana López Elaborado por:

Embed Size (px)

Citation preview

Page 1: Técnicas de Minería de Datos Centro Universitario Valle de México Minería de Datos Dra. Maricela Quintana López Elaborado por:

Técnicas de Minería de

Datos

Centro Universitario Valle de México

Maestría en Ciencias de la Computación

Minería de Datos

Dra. Maricela Quintana LópezElaborado por:

Page 2: Técnicas de Minería de Datos Centro Universitario Valle de México Minería de Datos Dra. Maricela Quintana López Elaborado por:
Page 3: Técnicas de Minería de Datos Centro Universitario Valle de México Minería de Datos Dra. Maricela Quintana López Elaborado por:

Unidad de competencia III: Proceso de Análisis SupervisadoTécnicas de Minería de Datos

Objetivo: Presentar los algoritmos de análisis

supervisado, específicamente de clasificación.

Conocimientos: One rule, Inductive Decision Tree ID3,

índice Gini.

Page 4: Técnicas de Minería de Datos Centro Universitario Valle de México Minería de Datos Dra. Maricela Quintana López Elaborado por:

Árboles de decisión◦ 1-Rule◦ ID3◦ GINI

Reglas de Clasificación◦ 1-Rule◦ Naive Bayes◦ PRISM

CLASIFICACIÓN

Page 5: Técnicas de Minería de Datos Centro Universitario Valle de México Minería de Datos Dra. Maricela Quintana López Elaborado por:

“Las ideas sencillas, frecuentemente funcionan bien”

Un atributo hace todoTodos los atributos contribuyenEstructura lógica capturada en un árbol de decisión

Reglas independientesetc...

Algoritmos de Minería

Page 6: Técnicas de Minería de Datos Centro Universitario Valle de México Minería de Datos Dra. Maricela Quintana López Elaborado por:

El método más simple es llamado “1-rule” Genera un árbol de decisión de un nivel Conjunto de reglas que prueban un atributo

en particular Cada rama corresponde a un valor distinto

del atributo

Inferencia de Reglas

Page 7: Técnicas de Minería de Datos Centro Universitario Valle de México Minería de Datos Dra. Maricela Quintana López Elaborado por:

La asignación de la clase para la rama será la más frecuente en el conjunto de entrenamiento (clase mayoritaria)

La tasa de error se calcula contando las instancias que no tienen la clase mayoritaria

Cada atributo genera un conjunto distinto de reglas, una regla por cada valor del atributo

Es necesario calcular la tasa de error para elegir el mejor conjunto de reglas

Método 1-Rule

Page 8: Técnicas de Minería de Datos Centro Universitario Valle de México Minería de Datos Dra. Maricela Quintana López Elaborado por:

Para cada atributoPara cada valor del atributo:

Calcular la frecuencia de cada claseDeterminar la clase mayoritaria CMConstruye el árbol ó la regla:

si valor de atributo entonces CM Calcular la tasa de error de las reglas

Escoger las reglas con la menor tasa de error

Método 1-Rule

Page 9: Técnicas de Minería de Datos Centro Universitario Valle de México Minería de Datos Dra. Maricela Quintana López Elaborado por:

outlook temperature humidity windy Playovercast hot high false Playrain mild high false Playrain cool normal false Playovercast cool normal true Playsunny cool normal false Playrain mild normal false Playsunny mild normal true Playovercast mild high true Playovercast hot normal false Playsunny hot high false Don't Playsunny hot high true Don't Playrain cool normal true Don't Playsunny mild high false Don't Playrain mild high true Don't Play

Page 10: Técnicas de Minería de Datos Centro Universitario Valle de México Minería de Datos Dra. Maricela Quintana López Elaborado por:

1-Rule para el Golf

¿Error total?

4 0

3 2

2 3

Play

Play

Don’t Play

Page 11: Técnicas de Minería de Datos Centro Universitario Valle de México Minería de Datos Dra. Maricela Quintana López Elaborado por:

1-Rule para el Golf

¿Error total?

Page 12: Técnicas de Minería de Datos Centro Universitario Valle de México Minería de Datos Dra. Maricela Quintana López Elaborado por:

Ejercicio

Page 13: Técnicas de Minería de Datos Centro Universitario Valle de México Minería de Datos Dra. Maricela Quintana López Elaborado por:

Conjunto attribute rules errors total errors1 outlook sunny --> no 2/5 4/14

overcast --> yes 0/4rainy --> yes 2/5

2 temperature hot --> no 2/4 5/14mild --> yes 2/6cool --> yes 1/4

3 humidity high --> no 3/7 4/14normal --> yes 1/7

4 windy false --> yes 2/8 5/14true --> no 3/6

Elegir el mejor atributo

1-Rule para el Golf

Page 14: Técnicas de Minería de Datos Centro Universitario Valle de México Minería de Datos Dra. Maricela Quintana López Elaborado por:

Árboles de decisión

Reglas

Resultado

if (outlook == sunny) then don’t playif (outlook == rainy) then playif (outlook == overcast) then play

Outlook

Don’t Play

Play Play

sunny overcastrainy

Page 15: Técnicas de Minería de Datos Centro Universitario Valle de México Minería de Datos Dra. Maricela Quintana López Elaborado por:

Valores faltantes◦ Es tratado como otro valor del atributo

if outlook = missing then yes

Atributos numéricos◦ Convertirlos

Valores faltantes y atributos numéricos

Page 16: Técnicas de Minería de Datos Centro Universitario Valle de México Minería de Datos Dra. Maricela Quintana López Elaborado por:

Golf con valores numéricosoutlook temperature humidity windy play

overcast 64 65 true yesrainy 65 70 true no rainy 68 80 false yessunny 69 70 false yesrainy 70 96 false yesrainy 71 91 true nosunny 72 95 false noovercast 72 90 true yesrainy 75 80 false yessunny 75 70 true yessunny 80 90 true noovercast 81 75 false yesovercast 83 86 false yessunny 85 85 false no

Page 17: Técnicas de Minería de Datos Centro Universitario Valle de México Minería de Datos Dra. Maricela Quintana López Elaborado por:

Particiónoutlook Temp play play play play

overcast 64 yes 64.5 yes yes yesrainy 65 no 66.5 no no no rainy 68 yes yes yes yessunny 69 yes yes yes yesrainy 70 yes 70.5 yes yes yesrainy 71 no no no nosunny 72 no 72 no no noovercast 72 yes yes yes yesrainy 75 yes yes yes yessunny 75 yes 77.5 yes yes yessunny 80 no 80.5 no no noovercast 81 yes yes yes yesovercast 83 yes 84 yes yes yessunny 85 no no no no

If temperature <=77.5 then Play=yeselse Play = No

Page 18: Técnicas de Minería de Datos Centro Universitario Valle de México Minería de Datos Dra. Maricela Quintana López Elaborado por:

Ejercicio

Page 19: Técnicas de Minería de Datos Centro Universitario Valle de México Minería de Datos Dra. Maricela Quintana López Elaborado por:

Solución

If (humidity <=82.5) or (humidity>95.5) then play else don’t play

Page 20: Técnicas de Minería de Datos Centro Universitario Valle de México Minería de Datos Dra. Maricela Quintana López Elaborado por:

Utiliza la técnica de Divide y Conquista

Procedimiento inductivo

La salida es un árbol de decisión

Top-Down induction of decision trees

Desarrollada y refinada por Ross Quinlan de la universidad de Sydney, Australia

Conocido como ID3

Árboles de Decisión

Page 21: Técnicas de Minería de Datos Centro Universitario Valle de México Minería de Datos Dra. Maricela Quintana López Elaborado por:

Clasifica patrones con atributos no numéricos

Mejorado con el uso del radio de ganancia

Variaciones ◦C4.5, ◦C5

ID3 (Inductive Decision Tree)

Page 22: Técnicas de Minería de Datos Centro Universitario Valle de México Minería de Datos Dra. Maricela Quintana López Elaborado por:

Puede expresarse recursivamente1. Seleccionar un atributo2. Colocar una rama para cada valor

del atributo3. Dividir las instancias en

subconjuntos uno por cada valor4. Repetir el proceso para cada rama

utilizando el subconjunto apropiado5. Si las instancias de una rama son de

la misma clase, el proceso termina para esa rama.

Árboles de Decisión

Page 23: Técnicas de Minería de Datos Centro Universitario Valle de México Minería de Datos Dra. Maricela Quintana López Elaborado por:

1. Seleccionar un atributo

Estatura Cabello Ojos Clasealto negro azul abajo negro azul aalto rubio azul oalto rojo azul oalto rubio café abajo rubio azul obajo rubio café aalto negro café a

Page 24: Técnicas de Minería de Datos Centro Universitario Valle de México Minería de Datos Dra. Maricela Quintana López Elaborado por:

Por atributo

Estatura Clase Cabello Clase Ojos Clasealto a negro a azul aalto a negro a azul aalto a negro a azul oalto o rojo o azul oalto o rubio a azul obajo a rubio a café abajo a rubio o café abajo o rubio o café a

Page 25: Técnicas de Minería de Datos Centro Universitario Valle de México Minería de Datos Dra. Maricela Quintana López Elaborado por:

Intuitivamente, cualquier hoja con instancias de solo una clase no tendrá que dividirse después

Se desea que quede un árbol pequeño

Medida de la pureza de cada nodo Escoger el atributo que produzca los nodos hijos mas puros

¿Cuál es el mejor atributo?

Page 26: Técnicas de Minería de Datos Centro Universitario Valle de México Minería de Datos Dra. Maricela Quintana López Elaborado por:

Información Se mide en fracciones de bit, y frecuentemente es menor a 1

Se asocia a cada nodo y se calcula con base al número de instancias de cada clase en él

Representa la cantidad de información esperada que sería necesaria para clasificar una instancia dada

Medida de Pureza

Page 27: Técnicas de Minería de Datos Centro Universitario Valle de México Minería de Datos Dra. Maricela Quintana López Elaborado por:

Propiedades esperadas◦Cuando queda una sola clase, la

información debe ser cero◦Cuando el número de instancias de cada

clase es igual, la información alcanza su máximo valor

La función que satisface estas propiedades es conocida como entropía

Información

Page 28: Técnicas de Minería de Datos Centro Universitario Valle de México Minería de Datos Dra. Maricela Quintana López Elaborado por:

Entropía

n

iiin pppppEntropía

1221 log,,,

Pi proporción de elementos en la clase Información del Sistema Información del atributo Información de cada rama Ganancia del atributo Se busca el atributo que provee la mayor

ganancia en información.

Page 29: Técnicas de Minería de Datos Centro Universitario Valle de México Minería de Datos Dra. Maricela Quintana López Elaborado por:

1. Seleccionar un atributo

Estatura Cabello Ojos Clasealto negro azul abajo negro azul aalto rubio azul oalto rojo azul oalto rubio café abajo rubio azul obajo rubio café aalto negro café a

Page 30: Técnicas de Minería de Datos Centro Universitario Valle de México Minería de Datos Dra. Maricela Quintana López Elaborado por:

Información del sistema

La entropía del sistema es:

0.4237949407 + 0.5306390622

954.083log8

38

5log85

22

)log()log(, 22212121 ppppppEntropía

Page 31: Técnicas de Minería de Datos Centro Universitario Valle de México Minería de Datos Dra. Maricela Quintana López Elaborado por:

Información de CabelloEjemplo

01log1

33log3

3

2

2

01log1

11log1

1

2

2

12

121212102

12

2log1log2122

1log212

42log4

24

2log42

222

22

Page 32: Técnicas de Minería de Datos Centro Universitario Valle de México Minería de Datos Dra. Maricela Quintana López Elaborado por:

Entropía sistema: 0.954 Entropía de la rama negro: 0 Entropía de la rama rojo: 0 Entropía de la rama rubio:1 Entropía de cabello:

Ganancia de cabello: Entropía del sistema – Entropía de Cabello G(cabello) = 0.954 -0.5 = 0.454

5.0184

081

083

Page 33: Técnicas de Minería de Datos Centro Universitario Valle de México Minería de Datos Dra. Maricela Quintana López Elaborado por:

Ganancia al evaluar ojos

Ejemplo

9709505945.0

4421793565.0528771238.05

3log53

52log5

222

Page 34: Técnicas de Minería de Datos Centro Universitario Valle de México Minería de Datos Dra. Maricela Quintana López Elaborado por:

Entropía sistema: 0.954 Entropía de la rama café: 0 Entropía de la rama azul: 0.971 Entropía de ojos:

Ganancia de ojos:

0.954 -0.607 = 0.347

607.0083

971.085

Page 35: Técnicas de Minería de Datos Centro Universitario Valle de México Minería de Datos Dra. Maricela Quintana López Elaborado por:

Estatura Clasealto aalto aalto aalto oalto obajo abajo abajo o

9709505945.0

4421793565.0528771238.05

3log53

52log5

222

9182958341.0

5283208336.03899750005.03

1log31

32log3

222

Page 36: Técnicas de Minería de Datos Centro Universitario Valle de México Minería de Datos Dra. Maricela Quintana López Elaborado por:

Entropía sistema: 0.954 bit Entropía de la rama bajo: 0.9183 Entropía de la rama alto: 0.971 Entropía de estatura:

Ganancia de estatura:

0.954 -0.9512 = 0.0028

9512375.09183.083

971.085

Page 37: Técnicas de Minería de Datos Centro Universitario Valle de México Minería de Datos Dra. Maricela Quintana López Elaborado por:

Cabello Clase Estatura Cabello Clase Ojos

negro a alto negro a azul

negro a alto negro a azul

negro a bajo negro a café

rojo o alto rojo o azul

rubio a alto rubio o azul

rubio o alto rubio o azul

rubio a bajo rubio a café

rubio o bajo rubio a café

Page 38: Técnicas de Minería de Datos Centro Universitario Valle de México Minería de Datos Dra. Maricela Quintana López Elaborado por:
Page 39: Técnicas de Minería de Datos Centro Universitario Valle de México Minería de Datos Dra. Maricela Quintana López Elaborado por:

outlook temperature humidity windy Playovercast hot high false Playrain mild high false Playrain cool normal false Playovercast cool normal true Playsunny cool normal false Playrain mild normal false Playsunny mild normal true Playovercast mild high true Playovercast hot normal false Playsunny hot high false Don't Playsunny hot high true Don't Playrain cool normal true Don't Playsunny mild high false Don't Playrain mild high true Don't Play

Page 40: Técnicas de Minería de Datos Centro Universitario Valle de México Minería de Datos Dra. Maricela Quintana López Elaborado por:

rainy

outlook

yesyesnonono

yesyesyesnono

yesyesyesyes

sunny overcast

temperature

yesyesnono

yes yesyesno

yesyesyesyesnono

hot mild cool

Page 41: Técnicas de Minería de Datos Centro Universitario Valle de México Minería de Datos Dra. Maricela Quintana López Elaborado por:

humidity

yesyesyesnononono

yesyesyesyesyesyesno

highnormal

windy

yesyesyesyesyesyesnono

yesyesyesnonono

false true

Page 42: Técnicas de Minería de Datos Centro Universitario Valle de México Minería de Datos Dra. Maricela Quintana López Elaborado por:

No se considera ningún atributo.

IS([9,5]) = -(9/14) lg (9/14) - (5/14) lg (5/14) = 0.4097 + 0.5305

= 0.940

Información del sistema

Page 43: Técnicas de Minería de Datos Centro Universitario Valle de México Minería de Datos Dra. Maricela Quintana López Elaborado por:

De cada rama◦ ISunny ([2,3]) = 0.5287 + 0.4421 0.971◦ IOvercast ([4,0]) = 0◦ IRainy ([3,2]) = 0.4421 + 0.5287 0.971

Del atributo◦ IOutlook =

Información

693.0

971.0145

0144

971.0145

Page 44: Técnicas de Minería de Datos Centro Universitario Valle de México Minería de Datos Dra. Maricela Quintana López Elaborado por:

GOutlook = IS - IOutlook= 0.940 - 0.693 = 0.247

GTemperature = IS - ITemperature= 0.940 - 0.911 = 0.029

GHumidity = IS - IHumidity= 0.940 - 0.788 = 0.152

GWindy = IS - IWindy= 0.940 - 0.892 = 0.048

Ganancia

Page 45: Técnicas de Minería de Datos Centro Universitario Valle de México Minería de Datos Dra. Maricela Quintana López Elaborado por:

outlook

temperature

nono

yesno

yes

hot mild cool

... ...

sunny

humidity

nonono

yesyes

high normal

... ...

outlook

sunny

... ...

outlook

sunny

windy

yesyesnono

yesno

false true

Page 46: Técnicas de Minería de Datos Centro Universitario Valle de México Minería de Datos Dra. Maricela Quintana López Elaborado por:

ISOutlook = 0.971 ITemperature = 0.4 GTemperature = 0.571 IHumidity = 0 GHumidity = 0.971 IWindy = 0.95098 GWindy = 0.020

Outlook - Sunny

Page 47: Técnicas de Minería de Datos Centro Universitario Valle de México Minería de Datos Dra. Maricela Quintana López Elaborado por:

ISOutlook = 0.971 ITemperature = 0.95098 GTemperature = 0.20 IHumidity = 0.95098 GHumidity = 0.20 IWindy = 0 GWindy = 0.971

Outlook - Rainy

Page 48: Técnicas de Minería de Datos Centro Universitario Valle de México Minería de Datos Dra. Maricela Quintana López Elaborado por:

outlook

windyhumidity yes

no yes yes no

sunnyovercast

rainy

high normalfalse true

Page 49: Técnicas de Minería de Datos Centro Universitario Valle de México Minería de Datos Dra. Maricela Quintana López Elaborado por:

Atributos altamente ramificados Atributo identificador = información 0

No es bueno para predecir la clase de instancias desconocidas

La medida de ganancia de información tiende a preferir atributos con dominios grandes

Radio de Ganancia

Page 50: Técnicas de Minería de Datos Centro Universitario Valle de México Minería de Datos Dra. Maricela Quintana López Elaborado por:

ID code

no no yes yes no

a b mn

c ...

Page 51: Técnicas de Minería de Datos Centro Universitario Valle de México Minería de Datos Dra. Maricela Quintana López Elaborado por:

Se obtiene considerando el número y tamaño de los nodos hijos en los cuales el atributo divide al conjunto sin tomar en cuenta cualquier información acerca de la clase

Se realiza la información de la partición

Radio de Ganancia

Page 52: Técnicas de Minería de Datos Centro Universitario Valle de México Minería de Datos Dra. Maricela Quintana López Elaborado por:

outlook temperatureinfo: 0.693 info: 0.911gain: 0.940- 0.693 0.247 gain: 0.940-0.911 0.029split info:info ( [ 5, 4, 5 ] ) 1.577 split info: info ( [ 4,6,4 ] ) 1.362gain ratio; 0.247/ 1.577 0.156 0.029/ 1.362 0.021

humidity windyinfo: 0.788 info: 0.892gain: 0.940- 0.788 0.152 gain: 0.940-0.892 0.048split info:info ( [ 7, 7 ] ) 1 split info: info ( [ 8, 6 ] ) 0.985gain ratio: 0.152 0.152 gain ratio: 0.048/ 0.985 0.049

577406283.15163871206.05305095811.02

144log14

414

5log1452 22

Page 53: Técnicas de Minería de Datos Centro Universitario Valle de México Minería de Datos Dra. Maricela Quintana López Elaborado por:

El índice Gini es una medida para determinar el grado al que una población comparte un recurso.

El índice Gini básicamente nos indica la equidad en la distribución de un recurso.

Los valores del índice Gini van de 0 a 1, siendo 0 la mayor equidad en la distribución y 1 representa el mayor grado de desigualdad posible.

El Índice Gini

Page 54: Técnicas de Minería de Datos Centro Universitario Valle de México Minería de Datos Dra. Maricela Quintana López Elaborado por:

Para calcular el índice Gini se utiliza la siguiente fórmula:

Nota: p(j|t) es la frecuencia relativa de la clase j en el nodo t.

La medida de información en un nodo es máximo 1-1/nc que es cuando existe una distribución uniforme y esto realmente no nos resulta interesante. El caso es interesante cuando el resultado es 0 ya que todos los registros pertenecen a una misma clase.

El Índice Gini

Page 55: Técnicas de Minería de Datos Centro Universitario Valle de México Minería de Datos Dra. Maricela Quintana López Elaborado por:

Un ejemplo de esta medida es:

Para poder hacer una separación, necesitamos del índice Gini de separación:

Esto se calcula cuando dividimos un nodo p en k particiones o hijos.

Donde ni es el número de registros en el hijo i y n es el número de registros en el nodo que se esta investigando.

El Índice Gini Como Separador

Page 56: Técnicas de Minería de Datos Centro Universitario Valle de México Minería de Datos Dra. Maricela Quintana López Elaborado por:

Basados en el criterio anterior, calculamos el índice Gini de separación para todas las posibles particiones y la que tenga el valor menor será la elegida para dividir el nodo.

Este criterio es utilizado en software como CART, SLIQ y SPRINT.

El Índice Gini Como Separador

Page 57: Técnicas de Minería de Datos Centro Universitario Valle de México Minería de Datos Dra. Maricela Quintana López Elaborado por:

Para hacer algunos experimentos y comprobar resultados, pueden acudir a la siguiente dirección:

http://www.cs.ualberta.ca/~aixplore/learning/DecisionTrees/Applet/DecisionTreeApplet.html

Applet De Prueba

Page 58: Técnicas de Minería de Datos Centro Universitario Valle de México Minería de Datos Dra. Maricela Quintana López Elaborado por:

Referencias

Witten I, & Frank E. Data Mining: Practical Machine Learning Tools and Technical with Java implementations. Morgan Kaufmann 2005.

Orallo Hernández J; Ramírez Quintana M; Ferri Ramírez C. Introducción a la Minería de Datos. Pearson 2008.

Page 59: Técnicas de Minería de Datos Centro Universitario Valle de México Minería de Datos Dra. Maricela Quintana López Elaborado por:

Referencias

Pawet Cichosz; Data Mining Algorithms explained using R. Wiley 2015.

Richard J. Roiger and Michael W. Geatz. Data Mining: A tutorial – based primer. Addison Wesley 2003.

Page 60: Técnicas de Minería de Datos Centro Universitario Valle de México Minería de Datos Dra. Maricela Quintana López Elaborado por:

Guion Explicativo

Este Material sirve para:◦ Explicar en qué consiste el aprendizaje

supervisado, particularmente la tarea de clasificación.

◦ Se presentan 3 algoritmos: One-Rule ID3 ID3 con Radio de Ganancia Índice GINI

Page 61: Técnicas de Minería de Datos Centro Universitario Valle de México Minería de Datos Dra. Maricela Quintana López Elaborado por:

Guion Explicativo

Las diapositivas deben verse en orden, y deben revisarse aproximadamente en 6 horas.

A continuación se presenta una tabla para relacionar las dispositivas con los contenidos del curso.

Page 62: Técnicas de Minería de Datos Centro Universitario Valle de México Minería de Datos Dra. Maricela Quintana López Elaborado por:

Guion Explicativo

Nombre del Material: Técnicas de Minería de DatosObjetivo: Presentar al alumno el aprendizaje supervizado, especificamente, algoritmos

de clasificación.

Diapositivas Explicación1 - 3 Se utilizan para ubicar el material dentro de la unidad de aprendizaje.4-5 Se presentan el tema de clasificación6-19 Se muestra el algoritmo One-Rule con valores nominales y numéricos,

ejemplos y ejercicios20-48 Árboles de Decisión, Algoritmo ID3 de Ross Quinlan49-52 Se muestra como mejorar el resultado del ID3 utilizando el Radio de Ganancia

53-57 Se presenta el índice GINI utilizado en el algoritmo CART58-59 Fuentes de Información Consultadas