Upload
doantruc
View
212
Download
0
Embed Size (px)
Citation preview
III JORNADAS DE DATA MINING
EN EL MARCO DE LA MAESTRÍA EN DATA MINING DE LA UNIVERSIDAD AUSTRAL
VISIÓN DE MODELOS PREDICTIVOS COMO RANKEADORES Gustavo Denicolay, Socio Gerente Adaptive, Profesor Maestría en Data Mining de la Universidad Austral.
IAE - Pilar, 12 y 13 de agosto de 2008
2
•Existe alguna jerarquía entre las tres tareas ?
•Rankear: dados un conjunto de nuevos registros, ordenar a los positivos antes que los negativos.
•Estimación de Probabilidad: dado un registro nuevo asignarle la probabilidad que sea positivo.
•Clasificación: dado un nuevo registro, asignar la etiqueta positivo o de negativo
Motivación
3
Mejor clasificación no implica mejor ranking
Motivación
3 errores ranking
3 errores clasificación
6 errores ranking
2 errores clasificación, MEJOR
Pos Neg
Pos Neg
4
Mejor probabilidades no implica mejor ranking
Motivación
0 errores ranking
0.25 mean squared error
1 errores ranking
0.125 mean squared error, MEJOR0.5
1
01
0.5 0
5
Motivación
•Si el dataset es muy desbalanceado, es trivial obtener un clasificador con gran accuracy asi como asignar probabilidades con un mean squared error muy bajo.
SIN EMBARGO
no es trivial obtener un buen rankeador.
Un buen rankeador captura la esencia de
SEPARAR las clases.
6
Rankear cumple un rol fundamental.
Motivación
•Un mejor rankeador implica un mejor clasificador y un una mejor estimación de probabilidades.
•Una mejor estimación de probabilidades no implicaun mejor rankeador . Pero utilizando la Cascara Convexa de la Curva ROC y reparando concavidades de puede mejorar la estimacion de probabilidades.
8
ROC : Receiver Operating Characteristic
•El término se comenzó a utilizar luego del ataque japones a Pearl Harbor en 1941 para incrementar la exactitud en la detección de aviones japoneses a partir de las señales de radar.
• En 1998 Foster Provost, Tom Fawcett y Ron Kohavi publican “The case against Accuracy Estimation for comparing Induction Algorithms”
• Hoy, 2008, muchos practicantes del data mining aun no utilizan regularmente la curva ROC para comparar algoritmos y continuan utilizando la metrica de accuracy ...
• En 2003 Charles X. Ling, Jin Huang, Harry Zhang demuestran formalmente la superioridad del la métrica AUC sobre la métricaAccuracy “AUC: a Statistically Consistent and more DiscriminatingMeasure than Accuracy ”
13
0
1
2
3
0 1 2 3
var a
var
b Negativos
Positivos
Predicado 1 = (0.5 < a < 2) and (1.5 < b < 3 )
Pos=113
Neg = 75
15
0
1
2
3
0 1 2 3
var a
var
b Negativos
Positivos
Predicado 2 = (1<a<3) and (1<b<3) and (a+b >4)
Pos=150
Neg = 0
19
PosNegRegion
2250Rojo
75100Verde
0300Azul
PosNegRegion
0300Azul
75100Verde
2250Rojo
300400Azul
00Vacio
Acum Pos
AcumNeg
300400Universo
300100Verde
2250Rojo
Construcción de la Curva ROC
23
var a
Pos=0Neg=200
var b
Pos=75Neg=0
var b
Pos=75Neg=100
Pos=0Neg=100
var a Pos=150Neg=01
2 3
4
5
27
+ + + - + + - + - + - - + - - - + - - - - -
1. Empezar en (0,0)
2. Mientras existanpuntos por leer, iral siguiente punto del ranking
1. Si es positivo, moverse arriba
2. Si es negativo, moverse a la derecha 0
1
2
3
4
5
6
7
8
9
0 1 2 3 4 5 6 7 8 9 10 11 12 13
35
0
30
60
90
120
150
180
210
240
270
300
0 40 80 120 160 200 240 280 320 360 400
Neg
Pos ROC optima
Azar
37
0
50
100
150
200
250
300
0 50 100 150 200 250 300 350 400
A
B
El modelo A es mejor que el modelo B
A domina a B
38
0
50
100
150
200
250
300
0 50 100 150 200 250 300 350 400
A
C
El modelo A es mejor que el modelo C en cierta region.
C es mejor que A en otra region.
39
•El modelo A es bueno detectando los positivos.
•El modelo C es bueno detectando los negativos.
•La diferencia entre los modelos A y C se debe a que los algoritmos que los generaron buscaron de forma distinta en el espacio de busqueda de todos los modelos.
•Ningun modelo es superior al otro para todos los puntos.
42
Clasificador Hibrido H
H es tangente a las curvas A y CNo necesariamente H es paralela a la recta del azar.
Dado un umbral que implique un corte a la curva ROC en el intervalo H, se determina p de la siguiente forma
H
d1 d2
d1
d1 + d2p=
A C
punto de corte
h
43
Clasificador Hibrido H
Supongamos un punto h, del segmento H, que esta a distancia p del punto de tangencia con A ( y a distancia 1-p de punto de tangencia con C )
H(h) = Dado un nuevo registro a clasificargenerar una variable aleatoria uniforme entre 0 y 1Si es menor o igual a p invocar al clasificador “A”En caso contrario invocar al clasificador “C”
45
Dado un Clasificador, la metrica Accuracy es el porcentaje de registros correctamente clasificados.
El accuracy determina un sentido en el plano de las rectas paralelas a la recta “positivos = negativos” que solamente coincide con el sentido de la recta del azar en el unico caso que el dataset este perfectamente balanceado ( # registros positivos = # registros negativos )
49
En el caso de las clases desbalanceadas se observa la
GRAN FALLA de la metrica accuracy, producto de hacer el
cociente entre positivos y negativos.
51
•Los Arboles de Decision generan una buena asignacion de probabilidades.
•Naive Bayes, Support Vector Machines y AdaBoost no generan una estimacion de probabilidad, y deben CALIBRADOS.
La CALIBRACION de un clasificador se puede lograr entre otros metodos por:•Estimacion Parametrica
•Binning
•Regresion Isotonica no parametrica. algoritmo Pool Adjacent ViolatorsPAV
52
La CALIBRACION por medio el algoritmo e Pool Adjacent Violators PAV es EQUIVALENTE a reparar concavidades de una curva ROC utilizando la ConvexHull. ( Tom Fawcett , 2007 )
Dado un dataset, y un clasificador, a partir del ranking, reparando concavidades en su Curva ROC, se RECALIBRAN las probabilidades, maximiza el AUC (area bajo la curva ROC) y maximiza el mean squared error de las probabilidades
para cualquier eleccion de umbral de clasificacion y costos de misclasificacion.