Reconocimiento de Formas en Data Mining Prof: Héctor Allende El clasificador de mínimo error...

Preview:

Citation preview

Reconocimiento de Formas en Data Mining Prof: Héctor Allende

• El clasificador de mínimo error (Bayes) se puede expresar en términos de funciones discriminantes:

Forma general de las funciones discriminantes asumiendo f.d.p. normales

)9()log())|(log()( iii wXpXg

),,()|( Si iii NwXp

)10(log||log2

12log

2)()(

2

1)( 1

iiiiT

ii

dXXXg

3. Funciones discriminantes para la f.d.p normal.3. Funciones discriminantes para la f.d.p normal.

Reconocimiento de Formas en Data Mining Prof: Héctor Allende

• Casos particulares:

- Caso 1. i = 2 I (Clasificador . Lineal)

- Caso 2. i = ( Clasificador Lineal)

- Caso 3. i arbitrarias ( Clasificador Cuadrático)

3. Funciones discriminantes para la f.d.p normal.3. Funciones discriminantes para la f.d.p normal.

Reconocimiento de Formas en Data Mining Prof: Héctor Allende

3.1 Clasificadores lineales

3.1.1 Caso 1: i = 2 I

• Variables estadísticamente independientes (no correlacionadas) y todas tienen la misma varianza, 2(Homocedasticas)

• Las matrices de covarianza son diagonales con valor 2

i = Diagonal(2 ,,,2)

3. Funciones discriminantes para la f.d.p normal.3. Funciones discriminantes para la f.d.p normal.

Reconocimiento de Formas en Data Mining Prof: Héctor Allende

3. Funciones discriminantes para la f.d.p normal.3. Funciones discriminantes para la f.d.p normal.

Clasificador lineal con i = 2 I

Reconocimiento de Formas en Data Mining Prof: Héctor Allende

• Simplificaciones de las funciones discriminantes.

- En este caso Sustituyendo en (10):

- Considerando que || || es la norma Euclídiana

])1(,,,)1[(y || 2212 Diagonalid

i

)11()log()()(2

1)(

2 iiT

ii XXXg

)()(|||| 2i

Tii XXX

)12()log(2

||||)(

2

2

ii

i

XXg

3. Funciones discriminantes para la f.d.p normal.3. Funciones discriminantes para la f.d.p normal.

Reconocimiento de Formas en Data Mining Prof: Héctor Allende

- Si i son iguales, no son significativas para :

Alternativamente,

Regla de mínima distancia Euclídiana

),(min),( si )( 2

,...,2,1

2iE

JicEc XXwXd

)(Xgi

)13(||||)( 2ii XXg

)()(|||| ),( 22i

TiiiE XXXX

3. Funciones discriminantes para la f.d.p normal.3. Funciones discriminantes para la f.d.p normal.

Reconocimiento de Formas en Data Mining Prof: Héctor Allende

• Funciones discriminantes lineales:

• Superficies de decisión:

donde:

3. Funciones discriminantes para la f.d.p normal.3. Funciones discriminantes para la f.d.p normal.

)log(22

1)(

2 iiTi

Ti

Ti XXXXg

)log(2

1

1

)(

20

2

0

iiTii

ii

iT

ii

w

WwXWXg

)()( XgXg ji

0)( 000 XXWwXWwXW Tj

Tji

Ti

jiW )(log

||||)(

2

2

21

0 jiji

ji j

iX

Reconocimiento de Formas en Data Mining Prof: Héctor Allende

3. Funciones discriminantes para la f.d.p normal.3. Funciones discriminantes para la f.d.p normal.

Front. de dec. Para un clasificador de mín. distancia

Reconocimiento de Formas en Data Mining Prof: Héctor Allende

3.1.2 Caso 2: i =

• Las variables no son estadísticamente independientes (cor- relacionadas) y las varianzas individuales son diferentes.

• Geométricamente: patrones distribuidos en agrupamientos hiperelipsoidales de igual tamaño y forma. Cada agrupamiento centrado en su media correspondiente, i

3. Funciones discriminantes para la f.d.p normal.3. Funciones discriminantes para la f.d.p normal.

Clasif. Lineal con i= (120,12)

Reconocimiento de Formas en Data Mining Prof: Héctor Allende

3. Funciones discriminantes para la f.d.p normal.3. Funciones discriminantes para la f.d.p normal.

Clasif. Lineal con i= (12=0,12)

Reconocimiento de Formas en Data Mining Prof: Héctor Allende

• Simplificación de las funciones discriminantes.

• Si i son iguales, no son significativas para :

Alternativamente,

Regla de mínima distancia Mahalanobis.

3. Funciones discriminantes para la f.d.p normal.3. Funciones discriminantes para la f.d.p normal.

)14()log()()(2

1)( 1

iiT

ii XXXg

)(Xgi

)15()()()( 1i

Tii XXXg

),(min),( si )( 2

,...,2,1

2iM

JicMc XXwXd

)(|||| ),( 12ii

TiiM XXX

Reconocimiento de Formas en Data Mining Prof: Héctor Allende

• Funciones discriminantes lineales:

• Superficies de decisión.

3. Funciones discriminantes para la f.d.p normal.3. Funciones discriminantes para la f.d.p normal.

)log( )(

121

0

1

0ii

Tii

iii

Tii w

WwXWXg

)()(

)(log)(

)(

0)(12

10

1

0

jiT

ji

ji

ji

jii

i j

i

X

W

XXW

Reconocimiento de Formas en Data Mining Prof: Héctor Allende

3.2 Clasificadores cuadráticos

3.2.1 Caso 3: i arbitrarias

• Fronteras de decisión expresadas como una función cuadrática (círculos, elipses, parábolas, hipérbolas).

• Este es el caso más general (i arbitrarias ), del cual se derivan

como casos particulares los dos estudiados anteriormente.

i = 2 I

i =

3. Funciones discriminantes para la f.d.p normal.3. Funciones discriminantes para la f.d.p normal.

Reconocimiento de Formas en Data Mining Prof: Héctor Allende

3. Funciones discriminantes para la f.d.p normal.3. Funciones discriminantes para la f.d.p normal.

Clasificadores Cuadráticos

Reconocimiento de Formas en Data Mining Prof: Héctor Allende

• Simplificación de las funciones discriminantes.

• Si i son iguales, no son significativas para :

• Funciones discriminantes cuadráticas:

donde:

3. Funciones discriminantes para la f.d.p normal.3. Funciones discriminantes para la f.d.p normal.

)16(log||log2

1)()(

2

1)( 1

iiiiT

ii XXXg

)17(||log2

1)()(

2

1)( 1

iiiT

ii XXXg

)(Xg i

0)( iT

iiT

i wXWXWXXg

iiiii WW 1121 y

iiiTiiw log||log- 2

1i

121

0

Reconocimiento de Formas en Data Mining Prof: Héctor Allende

3. Funciones discriminantes para la f.d.p normal.3. Funciones discriminantes para la f.d.p normal.

Fronteras de decisión (en dos dimensiones)

Reconocimiento de Formas en Data Mining Prof: Héctor Allende

• Motivación: ¿Porqué no usar el caso i arbitrarias siempre?

Rpta: Dimensión del espacio de parámetros

1. Considerar los costes computacionales de calcular:

Caso 3:

Caso 2:

Caso1:

4. Diseño de clasificadores de mínima distancia4. Diseño de clasificadores de mínima distancia

iiiiT

ii XXXg log||log2

1)()(

2

1)( 1

iiiT

ii XXXg log)()(2

1)( 1

)log()()(2

1)(

2 iiT

ii XXXg

Reconocimiento de Formas en Data Mining Prof: Héctor Allende

2. Estabilidad de los estimadores

(Representatividad ; sesgo,variancia, eficiencia robustez)

• Etapas:

1. Análisis del conjunto de aprendizaje.

( Consistencia Número de prototipos )

2. Aprendizaje.

( Estimación de Parámetros)

3. Clasificación.

( Regla de decisión)

4. Diseño de clasificadores de mínima distancia4. Diseño de clasificadores de mínima distancia

Reconocimiento de Formas en Data Mining Prof: Héctor Allende

4.1. Diseño de clasificadores.

1. Análisis del conjunto de aprendizaje.

Estudiar y sacar conclusiones sobre los conjuntos de aprendizaje: test de normalidad, comprobación de la suficiencia del número de muestras de entrenamiento para estimaciones y estudio de la estructura y propiedades estadísticas estadísticas de las clases.

En resumen: Decidir el clasificador (casos 1,2 ó 3).

4. Diseño de clasificadores de mínima distancia4. Diseño de clasificadores de mínima distancia

Reconocimiento de Formas en Data Mining Prof: Héctor Allende

2. Aprendizaje.

Estimación de los parámetros de cada clase

1.- Caso 1 : Estimar i (i = 1,2, ..., J) y 2

2.- Si acaso 2 ó 3, Estimar i y i para (i = 1,2, ..., J)

Si i = Calcular =

3. Clasificación.

Calcular para i=1,2,...,J (según el caso)

4. Diseño de clasificadores de mínima distancia4. Diseño de clasificadores de mínima distancia

J

iii

1

)(Xg i

JiXgXgcXd ic ,...,2,1 ),()( si )(

Reconocimiento de Formas en Data Mining Prof: Héctor Allende

4. Diseño de clasificadores de mínima distancia4. Diseño de clasificadores de mínima distancia

4.2. Clasificadores de mínima distancia.

Casos particulares de los clasificadores estudiados como los casos 1 y 2 cuando no se consideran las probabilidades a priori (todas son iguales)

1. Distancia Euclídea:

- Variables estadísticamente independientes- Variables igualmente escaladas en todas las direcciones 2= cte

2. Distancia de Mahalanobis:

- Variables correlacionadas.- Variables escaladas de forma diferente (2 distinto)

)()()( iT

ii XXXg

)()()( 1i

Tii XXXg

Reconocimiento de Formas en Data Mining Prof: Héctor Allende

4. Diseño de clasificadores de mínima distancia4. Diseño de clasificadores de mínima distancia

4.2.1 Clasif. de mínima distancia Euclídea.

Cálculo de la distancia Euclídiana

Reconocimiento de Formas en Data Mining Prof: Héctor Allende

4. Diseño de clasificadores. Clasif. de mín. distancia4. Diseño de clasificadores. Clasif. de mín. distancia

)()()()(),( 222

2211BABABABABA T

xxxxE

• Regla óptima de clasificación

donde

Clasificador de mínima distancia Euclídiana

),(),( si )( 2

,...,2,1

2iE

JicEc XminXwXd

)()(||||),( 22i

TiiiE XXXX

Reconocimiento de Formas en Data Mining Prof: Héctor Allende

4. Diseño de clasificadores de mínima distancia4. Diseño de clasificadores de mínima distancia

• Estamos “resumiendo” una clase por su valor medio: toda la información de interés de una clase (para la clasificación) está concentrada en su media

Un clasificador Euclídiana para tres clases

Reconocimiento de Formas en Data Mining Prof: Héctor Allende

4. Diseño de clasificadores de mínima distancia4. Diseño de clasificadores de mínima distancia

• Derivación de funciones discriminantes lineales para el clasificador de mínima distancia Euclídiana

Ti

Ti

Ti

TiiE XXXXXX 2)()(),(2

}2{min),(min,...,2,1

2

,...,2,1i

Ti

Ti

JiiE

JiXX

}2

1{max

,...,2,1i

Ti

Ti

JiX

Reconocimiento de Formas en Data Mining Prof: Héctor Allende

4. Diseño de clasificadores de mínima distancia4. Diseño de clasificadores de mínima distancia

Expresado en forma de funciones discriminantes:

De manera aún más compacta:

i

Tii

iii

Tii

Ti

Tii w

WwXWXXg

21

002

1)(

1,,...,,

,,...,,)(

21

21

21

dT

iTiiii

TiT

iiXXXX

WXWXg d

Reconocimiento de Formas en Data Mining Prof: Héctor Allende

4. Diseño de clasificadores de mínima distancia4. Diseño de clasificadores de mínima distancia

Demostración:

1

...,,...,,)(2

1

21

21

d

iTiiii

Tii

X

X

X

XWXgd

iTi

X

iTiiii

Ti

d

21

21,,...,,

21

Reconocimiento de Formas en Data Mining Prof: Héctor Allende

4.2.2 Clasif. de mínima distancia de Mahalanobis.

• Distancia de Mahalanobis.

• Regla óptima de clasificación:

donde

Clasificador de mínima distancia Euclídiana

4. Diseño de clasificadores. Clasif. de mín. distancia4. Diseño de clasificadores. Clasif. de mín. distancia

)()(),( 12i

TiiM XXX

),(min),( si )( 2

,...,2,1

2iM

JicMc XXwXd

)()(),( 12i

TiiM XXX

Reconocimiento de Formas en Data Mining Prof: Héctor Allende

4. Diseño de clasificadores. Clasif. de mín. distancia4. Diseño de clasificadores. Clasif. de mín. distancia

Dist. de Mahalanobis frente a dist. Euclídiana

Reconocimiento de Formas en Data Mining Prof: Héctor Allende

4. Diseño de clasificadores. Clasif. de mín. distancia4. Diseño de clasificadores. Clasif. de mín. distancia

Dist. de Mahalanobis frente a dist. Euclídiana(2)

Reconocimiento de Formas en Data Mining Prof: Héctor Allende

5. El problema de la estimación de parámetros5. El problema de la estimación de parámetros

• En teoría, el error de Bayes decrece conforme la dimensionalidad de los datos se incrementa.

• En la práctica, se usa un número fijo de muestras, N, para construir el clasificador: los estimadores están sesgados por las muestras disponibles.

• Si suponemos distribuciones normales se requiere:

- Clasificador. Cuadrático: estimaciones

- Clasificador. Lineal: estimaciones

2

)1(dddJ

2

)1(

ddJd

Reconocimiento de Formas en Data Mining Prof: Héctor Allende

5. El problema de la estimación de parámetros5. El problema de la estimación de parámetros

• Fenómeno de Hughes.

Reconocimiento de Formas en Data Mining Prof: Héctor Allende

• Interpretación:

Existe un valor óptimo de dimensionalidad que es función del tamaño del conjunto de entrenamiento.

Si el número de muestras de entrenamiento es suficiente y la dimensionalidad de los datos es alta el fenómeno de Hughes se manifiesta debido a que los estimadores obtenidos son inestables y segados. Este fenómeno es más acusado cuanto mayor sea la dimensionalidad.

• Diferencia entre las curvas:

- Clasificador cuadrático: proporcional a d2/N

- Clasificador lineal: proporcional a d/N

5. El problema de la estimación de parámetros5. El problema de la estimación de parámetros

Reconocimiento de Formas en Data Mining Prof: Héctor Allende

• Conclusiones:

•Aunque la decisión de adoptar un clasificador cuadrático o un clasificador lineal depende fundamentalmente de la forma de las matrices de covarianza de las clases, el clasificador cuadrático requiere muchas más muestras de entrenamiento que un clasificador lineal para conseguir resultados similares.

• Soluciones:

•1. Obtener más muestras de entrenamiento

•2. Utilizar las variables más relevantes (selección y/o extracción de características)

5. El problema de la estimación de parámetros5. El problema de la estimación de parámetros

Reconocimiento de Formas en Data Mining Prof: Héctor Allende

• Motivación:

Algunos patrones deben descartarse (asignarse a w0)

6. Detección de puntos dudosos6. Detección de puntos dudosos

)(max)( si )( c,...,2,1

c XgXgwXdJi

c

Reconocimiento de Formas en Data Mining Prof: Héctor Allende

6. Detección de puntos dudosos6. Detección de puntos dudosos

Reconocimiento de Formas en Data Mining Prof: Héctor Allende

6. Detección de puntos dudosos6. Detección de puntos dudosos

• Técnica: Umbralización

Sea wc tal que P(x | wc) =

• Cálculo del umbral para el clasificador cuadrático.

Sea wc tal que =

)|(max,...,2,1

iJi

wxP

TwxPw

TwxwXd

c

cc

)|( si

)|(P si)(

0

)(Xg i )(max

,...,2,1Xg i

Ji

cc

ccc

T(X) gw

T(X) gwXd

si

si)(

0

iiiiT

ii XXXg log||log)()()( 211

21

Reconocimiento de Formas en Data Mining Prof: Héctor Allende

6. Detección de puntos dudosos6. Detección de puntos dudosos

La clasificación es aceptable (d(X) = wc) si

Sigue una distribución 2 con d grados de libertad si X está normalmente distribuida.

cccccT

c TXX log||log)()( 211

21

cccc TT log2||log2 )()( 1cc

Tc XX

Reconocimiento de Formas en Data Mining Prof: Héctor Allende

6. Detección de puntos dudosos6. Detección de puntos dudosos

- Procedimiento:

1.- Consultar la tabla 2 para determinar el valor de (X- c)Tc

-1(X- c) por debajo del cual hay un determinado porcentaje de puntos.

En esta figura, indicamos el valor de la 2 que tiene la probabilidad P de ser sobrepasada (la proporción de la población con un valor 2 mayor que un valor determinado)

Reconocimiento de Formas en Data Mining Prof: Héctor Allende

6. Detección de puntos dudosos6. Detección de puntos dudosos

2.- Una vez consultado el valor, ,

3.- El valor exacto de Tc se calcula directamente, conociendo las probabilidades a priori y las matrices de covarianza de esa clase.

)18(log||log2

1

2

1cccT

Reconocimiento de Formas en Data Mining Prof: Héctor Allende