42
Introducci ´ on Transformaci´ on Adaptaci ´ on Evaluaci ´ on Selecci ´ on Clasificaci ´ on Multi-Etiqueta Eduardo Morales INAOE (INAOE) 1 / 42

INAOEemorales/Cursos/Aprendizaje2/Acetatos/multi... · Los algoritmos de aprendizaje que hemos visto hasta ahora, inducen un modelo, usando ejemplos de entrenamiento, para predecir

  • Upload
    lamhanh

  • View
    218

  • Download
    0

Embed Size (px)

Citation preview

Introduccion

Transformacion

Adaptacion

Evaluacion

Seleccion Clasificacion Multi-Etiqueta

Eduardo Morales

INAOE

(INAOE) 1 / 42

Introduccion

Transformacion

Adaptacion

Evaluacion

Seleccion

Contenido

1 Introduccion

2 Transformacion

3 Adaptacion

4 Evaluacion

5 Seleccion

(INAOE) 2 / 42

Introduccion

Transformacion

Adaptacion

Evaluacion

Seleccion

Introduccion

Clasificacion Multi-Clase

• Los algoritmos de aprendizaje que hemos visto hastaahora, inducen un modelo, usando ejemplos deentrenamiento, para predecir el valor de una clase.Dados:

D = (~xi , yi)1...N , ~xi ∈ Rd ; yi ∈ C

Encontrar:f : Rd → C

• Clasificacion binaria:

f : Rd → {−1,1}

• Clasificacion multiclase:

f : Rd → {C1, . . . ,Ck}

(INAOE) 3 / 42

Introduccion

Transformacion

Adaptacion

Evaluacion

Seleccion

Introduccion

Clasificacion Multi-Clase

(INAOE) 4 / 42

Introduccion

Transformacion

Adaptacion

Evaluacion

Seleccion

Introduccion

Clasificacion Multi-Etiqueta

• En clasificacion multi-etiqueta lo que queremos espredecir un conjunto de valores

• Dado:D = (~xi ,Zi)1...N , ~xi ∈ Rd ;Zi ⊆ L

• Encontrar:

f : Rd → Z ,Z ⊆ L = {1, . . . ,K}

(INAOE) 5 / 42

Introduccion

Transformacion

Adaptacion

Evaluacion

Seleccion

Introduccion

Clasificacion Multi-Etiqueta

(INAOE) 6 / 42

Introduccion

Transformacion

Adaptacion

Evaluacion

Seleccion

Introduccion

Algunos Ejemplos

(INAOE) 7 / 42

Introduccion

Transformacion

Adaptacion

Evaluacion

Seleccion

Introduccion

Clasificacion Multi-Etiqueta

Existen dos enfoques generales para clasificacionmulti-etiqueta:

1 Transformacion: Transforman el problema en variosproblemas de clasificacion multiclase

2 Adaptacion: Adaptan algoritmos para lidear conconjuntos de clases

(INAOE) 8 / 42

Introduccion

Transformacion

Adaptacion

Evaluacion

Seleccion

Transformacion

Metodos de Transformacion

• Copia: Reemplaza cada ejemplo multi-etiqueta (~xi ,Yi )en |Yi | ejemplos de una sola etiqueta

• Directamente o de forma pesada ( 1|Yi |

)

(INAOE) 9 / 42

Introduccion

Transformacion

Adaptacion

Evaluacion

Seleccion

Transformacion

Metodos de Transformacion

• Copia seleccionada: Copia y selecciona una de lasclases

• La mas frecuente (max), menos frecuente (min), enforma aleatoria (random), ignorando los ejemplosmulti-etiqueta (ignore)

(INAOE) 10 / 42

Introduccion

Transformacion

Adaptacion

Evaluacion

Seleccion

Transformacion

Metodos de Transformacion

• Conjunto potencia (powerset): Simple y muy usado, endonde considera cada subconjunto diferente de clasescomo una nueva clase de un nuevo problema declasificacion multi-clase

(INAOE) 11 / 42

Introduccion

Transformacion

Adaptacion

Evaluacion

Seleccion

Transformacion

Label Powerset

• ¿Como clasificamos? Si el clasificador nos da unaprobabilidad de salida, las podemos repartir en lasclases y sumarlas

(INAOE) 12 / 42

Introduccion

Transformacion

Adaptacion

Evaluacion

Seleccion

Transformacion

RAkEL

• Random k-label sets construye un ensemble de “LabelPowersets”, cada clasificador construido con unsubconjunto pequeno de clases

• Ventajas: Mantiene las correlaciones entre las clases ymantiene el numero de clases reducido

• De nuevo ordena las salidas de los clasificadores

(INAOE) 13 / 42

Introduccion

Transformacion

Adaptacion

Evaluacion

Seleccion

Transformacion

Binary Relevance

• Es un metodo popular que genera n clasificadoresbinarios, uno por cada valor (i) de las clases

• Cada clasificador se entrena con todos los datosoriginales, considerando ejemplos positivos a los quetienen la clase i , y negativos el resto (j 6= i), y lo hacepara todas las clases

(INAOE) 14 / 42

Introduccion

Transformacion

Adaptacion

Evaluacion

Seleccion

Transformacion

Ranking by Pairwise Comparison• Transforma el problema multiclase en q(q−1)

2 conjuntode clases binarias (uno para cada par de clases)

• Cada conjunto de datos contiene ejemplos de algunade las clases, pero no de las dos

• Dada una nueva instancia se corre en todos losclasificadores y se cuentan los votos recibidos paracada clase

(INAOE) 15 / 42

Introduccion

Transformacion

Adaptacion

Evaluacion

Seleccion

Adaptacion

Adaptacion de AlgoritmosSe han realizado adaptaciones a varios algoritmos parapoder lidear con ejemplos multi-etiquetas:• Arboles de decision (permite a las hojas tener mas de

una clase y modifica la medida de entropıa)• Boosting (Adaboost): Evalua considerando multiples

clases• Campos aleatorios de Markov: Lo modifican para

considerar co-ocurrencia de etiquetas• Redes neuronales: Adaptan back-propagation para

considerar multi-etiquetas• SVM: Generan n clasificadores binarios, sus

predicciones se usan como atributos para nuevosclasificadores binarios

• kNN: Encuentra vecinos mas cercanos tomando encuenta la frecuencia de las clases

(INAOE) 16 / 42

Introduccion

Transformacion

Adaptacion

Evaluacion

Seleccion

Adaptacion

Multi-Dimensional Bayesian Classifiers

• Una red de clasificacion bayesiana multi-dimensional esuna red bayesiana con una topologıa restringida

• Se pueden crear diferentes estructuras y estrategias deaprendizaje para cada sub-grafo.

(INAOE) 17 / 42

Introduccion

Transformacion

Adaptacion

Evaluacion

Seleccion

Adaptacion

Multi-Dimensional Bayesian Classifiers

• Tree-augmented MBCs (van der Gaag, 2006)• Poly-tree structures (de Waal, 2007; Zaragoza, 2011)• Greedy approaches for filter, wrapper and hybrid

(Bielza, 2010)• Based on Markov blanquets (Borchani, 2011)

(INAOE) 18 / 42

Introduccion

Transformacion

Adaptacion

Evaluacion

Seleccion

Adaptacion

Chain Classifiers• La idea de los clasificadores en cadena es por un lado

tener clasificadores simples (binarios) y considerar lasdependencias entre las clases

• Se crea una “cadena” de clasificadores, en donde losatributos de clasificadores binarios se aumentan conlas predicciones de los clasificadores anteriores en lacadena

(INAOE) 19 / 42

Introduccion

Transformacion

Adaptacion

Evaluacion

Seleccion

Adaptacion

Chain Classifiers

• El orden de la cadena es relevante si existendependencias entre las clases

• Como no se sabe cual debe de ser el orden se crea unensamble con muchos ordenes de clases generadosaleatoriamente

• Se usa un voto simple de las clases predichas portodos los ensambles usando un umbral

(INAOE) 20 / 42

Introduccion

Transformacion

Adaptacion

Evaluacion

Seleccion

Adaptacion

Bayesian Chain Classifier (BCC)1

• La idea es determinar un orden con base endependecias y limitar el numero de atributos usadospara los clasificadores en la cadena

• Pasos:1 Obtener una estructura de dependencias (red

bayesiana) para las clases2 Crear una clasificador en cadena tomando en cuenta

esta estructura (solo incorpora los padres de cada clasecomo atributos adicionales)

1J.H. Zaragoza, L.E. Sucar, E.F. Morales, C. Bielza, P. Larranaga (2011).Bayesian Chain Classifiers for Multidimensional Classification. Proc. of theInternational Joint Conference on Artificial Intelligence (IJCAI-2011), pp.2192-2197.

(INAOE) 21 / 42

Introduccion

Transformacion

Adaptacion

Evaluacion

Seleccion

Adaptacion

Bayesian Chain Classifier

(INAOE) 22 / 42

Introduccion

Transformacion

Adaptacion

Evaluacion

Seleccion

Adaptacion

Bayesian Chain Classifier

(INAOE) 23 / 42

Introduccion

Transformacion

Adaptacion

Evaluacion

Seleccion

Adaptacion

Jerarquicos

• A veces las clases estan organizadas en una jerarquıa• Algunos algoritmos aprovechan esa informacion

adicional (dependencias jerarquicas conocidas)• Clasificacion por:

1 Tipo de jerarquıa: (i) Arbol o (ii) DAG2 Profundidad de clasificacion: (i) mandatory leaf-node

prediction o (ii) non mandatory leaf-node prediction3 Esquema de exploracion: (i) Local o (ii) Global

(INAOE) 24 / 42

Introduccion

Transformacion

Adaptacion

Evaluacion

Seleccion

Adaptacion

Local o Top-Down

• El entrenamiento se puede hacer de difrentes formas:1 Clasificacion binaria en cada nodo (excepto el nodo

raız)2 Usar un clasificador multi-clase en cada nodo padre3 Usar un clasificador multi-clase por nivel4 Usar un clasificador multi-clase solo para las hojas

• Normalmente se usa el mismo clasificador en toda lajerarquıa

• Inconsistency problem: Un error en algun nivel de lajerarquıa se propaga a todos sus descendientes

• El problema es porque los clasificadores se consideranindpendientes entre sı

(INAOE) 25 / 42

Introduccion

Transformacion

Adaptacion

Evaluacion

Seleccion

Adaptacion

Tipos de Clasificadores

Tipos: Flat, Global, Local

(INAOE) 26 / 42

Introduccion

Transformacion

Adaptacion

Evaluacion

Seleccion

Adaptacion

Jerarquico (MHC)2

• Aprende un clasificador multiclase para cada nodopadre

• Con un nueva instancia usa todos los clasificadorespara predecir las clases en todos los nodos y combinalos resultados de todas los caminos

• Regresa el camino con probabilidad mas alta• Se puede decidir parar la clasificacion hasta cierto nivel

(non mandatory leaf-node prediction)

2J. Hernandez, L.E. Sucar, E.F. Morales (2014). Multidimensionalhierarchical classification. Expert Systems with Applications 41 (17):7671-7677.

(INAOE) 27 / 42

Introduccion

Transformacion

Adaptacion

Evaluacion

Seleccion

Adaptacion

Jerarquico (MHC)

La combinacion aquı es multiplicando, pero se puedenpensar en otras formas

(INAOE) 28 / 42

Introduccion

Transformacion

Adaptacion

Evaluacion

Seleccion

Adaptacion

Jerarquico (HMC)3

• Usar ideas de clasificadores multi-etiqueta• Aprovechar propiedades: Un ejemplo que pertenece a

una clase, tambien pertenence a todas sussuper-clases (y un negativo se propaga a todas sussub-clases)

• Incluir las predicciones de las clases de los padres enlos atributos de los hijos (chain classifier)

3M. Ramırez-Corona, L.E. Sucar, E.F. Morales (2016). Hierarchicalmultilabel classification based on path evaluation, International Journal ofApproximate Reasoning 68: 179-193.

(INAOE) 29 / 42

Introduccion

Transformacion

Adaptacion

Evaluacion

Seleccion

Adaptacion

Jerarquico (HMC)

• Usar ejemplos negativos de nodos cercanos parabalancear las clases

root

y1 y4

y2 y3 y5 y8

y6 y7 y9

Tr+(C5): instances in y6 and y7

Tr+(C5) = {∀x|x∈child(y5)}

Labels: y6 and y7 # Instances: 6

Tr-(C5): subset

of instances in y8

Tr-(C5)= {∃x|

x∈sib(y5)}

Label: "unknown"

# Instances: average(child(y5))

=(3+3)/2 = 3

Training set for C5

Tr(C5)= Tr+(C5) U Tr-(C5)

Labels: y6, y7 and

"unknown"# Instances: 9

5 inst 6 inst

11 inst 12 inst

6 inst 6 inst

3 inst 3 inst 6 inst

(INAOE) 30 / 42

Introduccion

Transformacion

Adaptacion

Evaluacion

Seleccion

Adaptacion

Jerarquico (HMC)

• Merging rule: considera el nivel en el arbol y prediccionde cada nodo:

level(yi) = 1 +

∑mj=1 level(pa(yi)j)

|pa(yi)|

w(yi) = 1− level(yi)

maxLevel + 1

score =

p∑i=1

w(yi) ∗ log(P(yi |xe,pa(yi)))

(INAOE) 31 / 42

Introduccion

Transformacion

Adaptacion

Evaluacion

Seleccion

Adaptacion

Jerarquico (HMC)

root

y1 y6

y2 y3

y4

y7 y10

y5

y8 y9

w1=0.75

P(y1=1|xe)=0.4

w6=0.75

P(y6=1|xe)=0.5

w2=0.5

P(y2=1|xe,y1)=0.3

w3=0.5

P(y3=1|xe,y1)

=0.4

w4=0.375

P(y4=1|xe,y3,y6)=0.7

w5=0.125

P(y5=1|xe,y4)=0.5

w8=0.25

P(y8=1|xe,y7)=0.1

w9=0.25

P(y9=1|xe,y7)=0.5

w7=0.5

P(y7=1|xe,y6)

=0.4

w10=0.5

P(y10=1|xe,y6)=0.2

(INAOE) 32 / 42

Introduccion

Transformacion

Adaptacion

Evaluacion

Seleccion

Adaptacion

Jerarquico (HMC)

root

y1 y6

y2 y3

y4

y7 y10

y5

y8 y9

0.75*log(0.4) 0.75*log(0.5)

0.5*log(0.3) 0.5*log(0.4)

0.375*log(0.7)

=

-0.819

0.25*log(0.1) 0.25*log(0.5)

0.5*log(0.4) 0.5*log(0.2)

0.125*log(0.5)

=

-0.560

=

-0.675

=

-0.5

=

-0.575

+ +

+

+

++

+ +

+

(INAOE) 33 / 42

Introduccion

Transformacion

Adaptacion

Evaluacion

Seleccion

Evaluacion

Medidas de EvaluacionPara los clasificadores multi-etiqueta se han propuestodiferentes medidas de evaluacion:• Mean accuracy (por clase para d clases):

overlineAccd =1d

d∑j=1

Accj =1d

d∑j=1

1N

N∑i=1

δ(c′ij , cij)

donde δ(c′ij , cij) = 1 si c′ij = cij and 0 en otro caso• Global accuracy (por ejemplo):

Acc =1N

N∑i=1

δ(c′i,ci)

donde ci es el vector d-dimensional de las clases yδ(c′i,ci) = 1 si c′i = ci y 0 en otro caso

(INAOE) 34 / 42

Introduccion

Transformacion

Adaptacion

Evaluacion

Seleccion

Evaluacion

Medidas de Evaluacion

• Multilabel accuracy (tambien llamado de Jaccard):

ML-Acc =1N

N∑i=1

|ci ∧ c′i ||ci ∨ c′i |

• F-measure:

F-measure =1d

d∑j=1

2pj rj

(pj + rj)

(INAOE) 35 / 42

Introduccion

Transformacion

Adaptacion

Evaluacion

Seleccion

Evaluacion

Medidas de Evaluacion Jerarquicas• Exact-Match:

ExactMatch =1N

N∑i=1

1Yi=Yi

• Accuracy:

Accuracy =1N

N∑i=1

∣∣∣Yi ∩ Yi

∣∣∣∣∣∣Yi ∪ Yi

∣∣∣• Hamming-Loss and Hamming-Accuracy:

HammingLoss =1

N|L|

N∑i=1

∣∣∣Yi ⊕ Yi

∣∣∣donde ⊕ es or exclusivoHamming accuracy (H-Accuracy) se define como:H − Accuracy = 1− HammingLoss.

(INAOE) 36 / 42

Introduccion

Transformacion

Adaptacion

Evaluacion

Seleccion

Evaluacion

Medidas de Evaluacion Jerarquicas

• F1-measure: Para multi-etiqueta, refiniendo precision yrecuerdo

F1 =2× precision × recall

precision + recall

Donde: Precision: |zi∧zi ||zi |

y Recall: |zi∧zi ||zi |

• F1-macro D: mide el desempeno promedio por instancia

F1macro D =1N

N∑i=0

F1(zi , zi)

• F1-macro L: mide el desempeno promedio por clase

F1macro L =1|L|

|L|∑i=0

F1(zi , zi)

(INAOE) 37 / 42

Introduccion

Transformacion

Adaptacion

Evaluacion

Seleccion

Evaluacion

Medidas de Evaluacion Jerarquicas

• Gain-Loose Balance: premia nodes bien clasificados ycastiga los mal, considerando el numero de hermanos yla profundidad en la jerarquıa

GLB =

∑npi=0(1−

1Ni)(1− wi)∑nt

i=0(1−1Ni)(1− wi)

nfp∑i=0

1Ni

wi +

nfn∑i=0

1Ni

wi

Conocimiento el posible valor maximo y mınimo sepuede normalizar:

NGLB =(GLB −min)max −min

(INAOE) 38 / 42

Introduccion

Transformacion

Adaptacion

Evaluacion

Seleccion

Seleccion

Seleccion de Atributos

• A partir de los atributos originales selecciona unsubconjunto de estos

• La meta es seleccionar el subconjunto S mas pequenode todos los atributos F , tal que P(C|S) ≈ P(C|F )

• Ventajas esperadas:1 Mejorar el desempeno predictivo2 Construir modelos mas eficientemente3 Mejorar entendimiento sobre los modelos generados

(INAOE) 39 / 42

Introduccion

Transformacion

Adaptacion

Evaluacion

Seleccion

Seleccion

Seleccion de Atributos

En general, los algoritmos de seleccion de atributos sedistinguen por su forma de evaluar atributos y los podemosclasificar en tres:

1 Filtros (filters): seleccionan/evaluan los atributos enforma independiente del algoritmo de aprendizaje

2 Wrappers: usan el desempeno de algun clasificadorpara determinar lo deseable de un subconjunto

3 Hıbridos: usan una combinacion de los dos criterios deevaluacion en diferentes etapas del proceso debusqueda.

(INAOE) 40 / 42

Introduccion

Transformacion

Adaptacion

Evaluacion

Seleccion

Seleccion

Seleccion de Atributos en ProblemasMulti-Etiqueta

• Filter: Transforman el problema en uno o mas de unasola clase y se usa algun algoritmo de seleccion deatributos tipo filtro. Despues se sigue algun esquemade “agregacion”

• Wrapper: se pueden aplicar directamente con algunalgoritmo de clasificacion multi-etiqueta

• Tambien se han propuesto variantes de algoritmos deextraccion de atributos como LDA

(INAOE) 41 / 42

Introduccion

Transformacion

Adaptacion

Evaluacion

Seleccion

Seleccion

Meka

• MEKA: A Multi-Label Extension to WEKA• Algunos de los algoritmos que tiene son:

1 Binary Relevance2 Chain classifier3 metaBagging4 Bayesian chain classifier (BCC)5 RAkEL6 . . .

• http://meka.sourceforge.net

(INAOE) 42 / 42