“REAL ADABOOST”CON
FUSIÓN CONTROLADA POR PUERTA
(GCF-RAB)
Aníbal R. Figueiras-VidalG2PI-DTSC-UCIIIM
ÍNDICE
- 1 -
1. DECISIÓN MÁQUINA
2. CONJUNTOS
3. COMITÉS
4. BOOSTING
5. GCF-RAB
6. DISEÑOS CONSIDERADOS
7. RESULTADOS
8. LÍNEAS DE TRABAJO
1. DECISION MÁQUINA
-2-
Máquina: información (supervisión)
(semisupervisión)
Propósitos: explicativo (Occam)
predictivo (“No free lunch”)
)k()k(
)k()k(
t,
t,
x
x
H0 ×
Hi ×...
H I ×
Fw(x) Dj
x
H M
2. CONJUNTOS
-3-
(Occam vs. Epicuro)
Ventajas: potencia expresiva a menor coste de
diseño
eventualmente, mejor interpretabilidad
Familias: comités : aprendices y fusión
separados
cooperativos : aprendices y fusión
simultáneos
“boosting” (y NCL)
MoE
3. COMITÉS
-4-
Aprendices: “diversidad” arquitectura aprendizaje: datos
variablesinicializaciónalgoritmo. . .
(extremo: expertos regionales) (también diseños cooperativos)
Fusión: fija (promedio) / entrenable (comb. lineal)global (anteriores) / local (mayoría; puerta). . .
Ejs. importantes: “bagging” (aprendices con “booststrap”) (“wagging”, etc.)
RF (variables y datos)(se basan en aprendices inestables)
(RF: pierden inteligibilidad; paralelas a Inteligencia Colectiva… ¡mal pensada!) (fusión puerta)
4. BOOSTING (1)
-5-
A. AdaBoost
Aprendices: decisores débiles y duros
Combinación lineal:
Objetivo:
y se diseña aprendiz a aprendiz:
1,1o l
MloαfM
1mmmM
xx
dfexpfd,C
'n
'n1m
n1mn
1m
nm
nnm
)n(1m
n
nm
nm
)n(
1m)n(
n
m
1'm
)n(
'm'm)n(
m
C
Cp
ponderadaodαexpp
odαexpfdexpoαdexpC
4. BOOSTING (2)
-6-
Minimizando
'
''
n
)n(mem
)n(1m
)n(mem
)n(1m)n(
m
n
)n(me
)n(1mm
m
mm
)n()n(m
)n()n(m)n(
me)n(
me)n(1m
ml
I2expp
I2exppp:y
Ip1
ln2
1
d'o,0d'o,1
IIpminargo'o
4. BOOSTING (3)
-7-
1.
2.
2.1.
2.2.
a.
b.
n
)n(me
)n(1mm Ip
m
mm
1ln
2
1
M
1mmmM )(osgn)(fsgn)(o xxx
)I2(expp)I2(exppp )n(mem
n
)n(1m
)n(mem
)n(1m
)n(m
'
'
'
1mm
3. Condición de parada:
4.
5. Vuelta a 2
Algoritmo AdaBoost
n
)n(me
)n(1m
mm Ipminargo
'o
1/N}{p (n)0
4. BOOSTING (4)
-8-
Esquema o
1o 2o Mo
M21
x
Mf
4. BOOSTING (5)
-9-
B. Real AdaBoost
Aprendices: decisores débiles y blandos
Combinación lineal:
Se minimiza la cota superior del coste exponencial
1,1om
MloαfM
1mmmM
xx
:1,1dodoexpexp2
do1exp
2
do1mmmm
mm
m
m
nm
n
m
nm
n
n
n1m
m'o,m'mm 'exp
2
'od1'exp
2
'od1pminargo,
4. BOOSTING (6)
-10-
Resultan:
para , ha de minimizarse
mmmmm'
m 1'exp1'expminarg
mo
;'odp'exp'exp2
1
n
nm
nn1mmm
admitiendo ,0'm
mn
nm
nn1m
m'om maxarg'odpmaxargo
: parámetro de separación o corte (“edge”)m
tras ello, queda
y anulando la derivada
m
mm
1
1ln
2
1
4. BOOSTING (7)
-11-
Algoritmo Real AdaBoost
1.
2. Para
2.1.
2.2. a.
b.
3. Condición de parada
4.
5. Vuelta a 2
N1p n0
M,,1m
n
nm
nn1m
m'om 'odpmaxargo
n
nm
nn1mm odp
m
mm
1
1ln
2
1
M
1m
mmM )(osgn)(fsgn)(o xxx
'n
'nm
'nm
'n1m
nm
nm
n1m
nm odexppodexppp
-12-
Casi nunca sobreajusta; explicaciones
por trabajar con
Breiman: por construir con aprendices blandos y énfasis
4. BOOSTING (8)
do
Cuando sobreajusta: por énfasis excesivo
sobre muestras imposibles
arreglarlo: selección de muestras
regularización
énfasis mixtos . . .
alternativa: fusión local
(“débil”)
5. GCF-RAB (1)
-13-
Idea
siendo una capa de RBF; p.ej., gaussianasb
Entrenamiento (tipo “arcing”)
m
),()2(exp)( r2r
2
2rr ccxxb
, de forma convencional (min error cuadrático muestral enfatizado)
, por gradiente sobre m
mo
'm
m
1'm
)'n('m
)'n('m
)'n(
'n
)'n(m
)'n( )(o)(dexp)(fdexp xxx
mm
m
m dfexpoddfexp
e
e
m bw
usando
dados
)1()()( eeTmem bxbwx
5. GCF-RAB (2)
-14-
reuniendo expresiones
'n
)'(ne
)'(nm
)'(nme
Tme
)'(n1m
)'n('nm
)'n(meme ofdexpodq1q xbxxbwxww
R
1r
2r
2
2r
)n(mrmo
(n)Tme
Tme
(n)m 2expww cxxbwx
][meme wwy se toma ;
con lo que se tiene
5. GCF-RAB (3)
-15-
Arquitectura
6. DISEÑOS CONSIDERADOS (1)
-16-
A.1. Preselección (S-C)
NNk
- proximidad a la frontera:
- corrección:
A. Selección de centroides
Se preseleccionan las muestras con
También Shin-Cho + Hwang-Bang
y kkP )n(j
)n(j x
nj2
n
1,1jj
)n( PlogPpf xxx
0pf
Se explora
y 21c
k
A.2. Selección (APC-III H-B)
- muestra de mayor
- excluir muestras en una hiperesfera de radio
- iterar hasta que no queden muestras
pf
n
d
)n(nPc xx
h
6. DISEÑOS CONSIDERADOS (2)
'n
2
'nn
n'n1 min
N
1h xx
rCn 2
rn
r
2r
C#
1
x
cx
hr
: agrupamiento en torno arC
# : no. de muestras
(promedio de distancias mínimas)
L,p,k:CV 1
)L,ρ,ρk,:CV( 21
1.
( (no. nodos aprendices MLP))
2.
-17-
rC
-18-
(50 X 5-fold)
RAB GCF-RAB 1 GCF-RAB 2
ab 19.4±0.02 19.3±0.3 19.1±0.3
br 2.6±0.4 2.3±0.4 2.2±0.3
co 29.0±0.2 28.1±0.8 27.4±0.8
cr 2.5±0.0 2.5±0.0 2.5±0.0
he 8.9±1.8 8.4±1.8 8.1±1.9
io 4.5±0.9 4.2±1.7 4.0±1.0
kw 11.7±0.01 11.7±0.1 11.7±0.2
ri 9.7±0.01 8.6±0.3 8.5±0.2
7. RESULTADOS EXPERIMENTALES
(carga en operación: órdenes similares, si se utilizan LUTs)
8. LÍNEAS DE TRABAJO
-19-
Mejores métodos de selección de centroides
(también paso a paso)
Inclusión de énfasis generalizados
Otras puertas
(complementarias: aprendices locales + fusión global)
Extensiones a otros métodos constructivos (NCL, etc.)