Download ppt - REAL ADABOOST CON FUSIÓN CONTROLADA POR PUERTA (GCF-RAB) Aníbal R. Figueiras-Vidal G2PI-DTSC-UCIIIM

“REAL ADABOOST”CON

FUSIÓN CONTROLADA POR PUERTA

(GCF-RAB)

Aníbal R. Figueiras-VidalG2PI-DTSC-UCIIIM

ÍNDICE

- 1 -

1. DECISIÓN MÁQUINA

2. CONJUNTOS

3. COMITÉS

4. BOOSTING

5. GCF-RAB

6. DISEÑOS CONSIDERADOS

7. RESULTADOS

8. LÍNEAS DE TRABAJO

1. DECISION MÁQUINA

-2-

Máquina: información (supervisión)

(semisupervisión)

Propósitos: explicativo (Occam)

predictivo (“No free lunch”)

)k()k(

)k()k(

t,

t,

x

x

H0 ×

Hi ×...

H I ×

Fw(x) Dj

x

H M

2. CONJUNTOS

-3-

(Occam vs. Epicuro)

Ventajas: potencia expresiva a menor coste de

diseño

eventualmente, mejor interpretabilidad

Familias: comités : aprendices y fusión

separados

cooperativos : aprendices y fusión

simultáneos

“boosting” (y NCL)

MoE

3. COMITÉS

-4-

Aprendices: “diversidad” arquitectura aprendizaje: datos

variablesinicializaciónalgoritmo. . .

(extremo: expertos regionales) (también diseños cooperativos)

Fusión: fija (promedio) / entrenable (comb. lineal)global (anteriores) / local (mayoría; puerta). . .

Ejs. importantes: “bagging” (aprendices con “booststrap”) (“wagging”, etc.)

RF (variables y datos)(se basan en aprendices inestables)

(RF: pierden inteligibilidad; paralelas a Inteligencia Colectiva… ¡mal pensada!) (fusión puerta)

4. BOOSTING (1)

-5-

A. AdaBoost

Aprendices: decisores débiles y duros

Combinación lineal:

Objetivo:

y se diseña aprendiz a aprendiz:

1,1o l

MloαfM

1mmmM

xx

dfexpfd,C

'n

'n1m

n1mn

1m

nm

nnm

)n(1m

n

nm

nm

)n(

1m)n(

n

m

1'm

)n(

'm'm)n(

m

C

Cp

ponderadaodαexpp

odαexpfdexpoαdexpC

4. BOOSTING (2)

-6-

Minimizando

'

''

n

)n(mem

)n(1m

)n(mem

)n(1m)n(

m

n

)n(me

)n(1mm

m

mm

)n()n(m

)n()n(m)n(

me)n(

me)n(1m

ml

I2expp

I2exppp:y

Ip1

ln2

1

d'o,0d'o,1

IIpminargo'o

4. BOOSTING (3)

-7-

1.

2.

2.1.

2.2.

a.

b.

n

)n(me

)n(1mm Ip

m

mm

1ln

2

1

M

1mmmM )(osgn)(fsgn)(o xxx

)I2(expp)I2(exppp )n(mem

n

)n(1m

)n(mem

)n(1m

)n(m

'

'

'

1mm

3. Condición de parada:

4.

5. Vuelta a 2

Algoritmo AdaBoost

n

)n(me

)n(1m

mm Ipminargo

'o

1/N}{p (n)0

4. BOOSTING (4)

-8-

Esquema o

1o 2o Mo

M21

x

Mf

4. BOOSTING (5)

-9-

B. Real AdaBoost

Aprendices: decisores débiles y blandos

Combinación lineal:

Se minimiza la cota superior del coste exponencial

1,1om

MloαfM

1mmmM

xx

:1,1dodoexpexp2

do1exp

2

do1mmmm

mm

m

m

nm

n

m

nm

n

n

n1m

m'o,m'mm 'exp

2

'od1'exp

2

'od1pminargo,

4. BOOSTING (6)

-10-

Resultan:

para , ha de minimizarse

mmmmm'

m 1'exp1'expminarg

mo

;'odp'exp'exp2

1

n

nm

nn1mmm

admitiendo ,0'm

mn

nm

nn1m

m'om maxarg'odpmaxargo

: parámetro de separación o corte (“edge”)m

tras ello, queda

y anulando la derivada

m

mm

1

1ln

2

1

4. BOOSTING (7)

-11-

Algoritmo Real AdaBoost

1.

2. Para

2.1.

2.2. a.

b.

3. Condición de parada

4.

5. Vuelta a 2

N1p n0

M,,1m

n

nm

nn1m

m'om 'odpmaxargo

n

nm

nn1mm odp

m

mm

1

1ln

2

1

M

1m

mmM )(osgn)(fsgn)(o xxx

'n

'nm

'nm

'n1m

nm

nm

n1m

nm odexppodexppp

-12-

Casi nunca sobreajusta; explicaciones

por trabajar con

Breiman: por construir con aprendices blandos y énfasis

4. BOOSTING (8)

do

Cuando sobreajusta: por énfasis excesivo

sobre muestras imposibles

arreglarlo: selección de muestras

regularización

énfasis mixtos . . .

alternativa: fusión local

(“débil”)

5. GCF-RAB (1)

-13-

Idea

siendo una capa de RBF; p.ej., gaussianasb

Entrenamiento (tipo “arcing”)

m

),()2(exp)( r2r

2

2rr ccxxb

, de forma convencional (min error cuadrático muestral enfatizado)

, por gradiente sobre m

mo

'm

m

1'm

)'n('m

)'n('m

)'n(

'n

)'n(m

)'n( )(o)(dexp)(fdexp xxx

mm

m

m dfexpoddfexp

e

e

m bw

usando

dados

)1()()( eeTmem bxbwx

5. GCF-RAB (2)

-14-

reuniendo expresiones

'n

)'(ne

)'(nm

)'(nme

Tme

)'(n1m

)'n('nm

)'n(meme ofdexpodq1q xbxxbwxww

R

1r

2r

2

2r

)n(mrmo

(n)Tme

Tme

(n)m 2expww cxxbwx

][meme wwy se toma ;

con lo que se tiene

5. GCF-RAB (3)

-15-

Arquitectura

6. DISEÑOS CONSIDERADOS (1)

-16-

A.1. Preselección (S-C)

NNk

- proximidad a la frontera:

- corrección:

A. Selección de centroides

Se preseleccionan las muestras con

También Shin-Cho + Hwang-Bang

y kkP )n(j

)n(j x

nj2

n

1,1jj

)n( PlogPpf xxx

0pf

Se explora

y 21c

k

A.2. Selección (APC-III H-B)

- muestra de mayor

- excluir muestras en una hiperesfera de radio

- iterar hasta que no queden muestras

pf

n

d

)n(nPc xx

h

6. DISEÑOS CONSIDERADOS (2)

'n

2

'nn

n'n1 min

N

1h xx

rCn 2

rn

r

2r

C#

1

x

cx

hr

: agrupamiento en torno arC

# : no. de muestras

(promedio de distancias mínimas)

L,p,k:CV 1

)L,ρ,ρk,:CV( 21

1.

( (no. nodos aprendices MLP))

2.

-17-

rC

-18-

(50 X 5-fold)

RAB GCF-RAB 1 GCF-RAB 2

ab 19.4±0.02 19.3±0.3 19.1±0.3

br 2.6±0.4 2.3±0.4 2.2±0.3

co 29.0±0.2 28.1±0.8 27.4±0.8

cr 2.5±0.0 2.5±0.0 2.5±0.0

he 8.9±1.8 8.4±1.8 8.1±1.9

io 4.5±0.9 4.2±1.7 4.0±1.0

kw 11.7±0.01 11.7±0.1 11.7±0.2

ri 9.7±0.01 8.6±0.3 8.5±0.2

7. RESULTADOS EXPERIMENTALES

(carga en operación: órdenes similares, si se utilizan LUTs)

8. LÍNEAS DE TRABAJO

-19-

Mejores métodos de selección de centroides

(también paso a paso)

Inclusión de énfasis generalizados

Otras puertas

(complementarias: aprendices locales + fusión global)

Extensiones a otros métodos constructivos (NCL, etc.)