INAOE - Ciencias Computacionales - Transfer Learningemorales/Cursos/Aprendizaje2/... · 2017. 6. 1. · Introduccion´ Transfer en Aprendizaje por Refuerzo Tranfer en Redes Bayesianas

Introduccion

Transfer enAprendizajepor Refuerzo

Tranfer enRedesBayesianas

Tranfer enArboles deDescision

Temasrelacionados ypreguntasabiertas

Transfer Learning

Eduardo Morales

INAOE

(INAOE) 1 / 77

Introduccion





Contenido

1 Introduccion

2 Transfer en Aprendizaje por Refuerzo

3 Tranfer en Redes Bayesianas

4 Tranfer en Arboles de Descision

5 Temas relacionados y preguntas abiertas

(INAOE) 2 / 77

Introduccion





Introduccion

Antecedentes

• Los algoritmos de aprendizaje han logrado avancesmuy importantes en los ultimos anos

• En general suponen que los ejemplos de entrenamientoy prueba tienen los mismos atributos y provienen de lamisma distribucion

• Si la distribucion cambia, normalmente se tienen quereconstruir los modelos

• En algunas aplicaciones es muy caro o no se puedenrecolectar los ejemplos de entrenamiento parareconstruir un modelo

• Aprendizaje por transferencia o transfer learning puedeayudar en tales casos

(INAOE) 3 / 77

Introduccion





Introduccion

Transfer Learning

• TL puede servir cuando los datos:• Son escasos• Estan desactualizados

• TL permite que los dominios, tareas y distribucionessean diferentes en los ejemplos de entrenamiento yprueba

(INAOE) 4 / 77

Introduccion





Introduccion

Transfer Learning

• Definicion: Dado un dominio (Df ) y tarea (Tf ) fuentes,un dominio (Do) y tarea (To) objetivos, aprendizaje portransferencia busca mejorar el aprendizaje de la funcionobjetivo usando conocimiento en Df y Tf

• Cuando las tareas son diferentes entonces losdominios de las clases son diferentes

(INAOE) 5 / 77

Introduccion





Introduccion

Transfer Learning

• En TL se consideran tres aspectos fundamentales:• ¿Que transferir?• ¿Como transferir?• ¿Cuando transferir?

• El transferir conocimiento no siempre es util y puededanar el desempeno de los algoritmos (negativetransfer)

(INAOE) 6 / 77

Introduccion





Introduccion

Algoritmos

Podemos catalogar a los algoritmos de TL en tres:• Inductive transfer learning: la tarea fuente y objetivo son

diferentes: (i) se tienen muchos datos del dominiofuente, (ii) no se tienen datos del dominio fuente

• Transductive transfer learning: las tareas de la fuente yobjetivo son las mismas, pero los dominios sondiferentes: (i) los espacios de atributos son diferentesen la fuente y en el objetivo, (ii) los atributos son igualespero las probabilidades marginales son diferentes(P(Xf ) 6= P(Xo))

• Unsupervised transfer learning: no se tienen datosetiquetados en ningun caso, las tareas son diferentespero de alguna forma relacionadas

(INAOE) 7 / 77

Introduccion





Introduccion

Algoritmos

(INAOE) 8 / 77

Introduccion





Introduccion

Inductive Transfer Learning

Opciones de conocimiento a transferir:• Transferir instancias: en este caso los espacios de

atributos son iguales, aunque no necesariamente todoslos ejemplos son utiles

• Transferir la representacion de los atributos: aprenderuna representacion de baja dimensionalidad que sepueda compartir entre tareas

• Transferir parametros: ya sean parametros odistribuciones de los algoritmos de aprendizajeutilizados

• Transferir conocimiento relacional: relacionesequivalentes entre dominios

(INAOE) 9 / 77

Introduccion





Introduccion

Transductive Transfer Learning

• En transductive learning todos los ejemplos(entrenamiento y prueba) se conocen de entrada y entransductive transfer learning se conocen algunosejemplos no etiquetados de la tarea objetivo

• Se pueden transferir:• Instancias: usan muestreos (importance sampling)• Transferir la representacion de los atributos

(INAOE) 10 / 77

Introduccion





Introduccion

Unsupervised Transfer Learning

• No se tienen etiquetas en los ejemplos fuente y objetivo• Se pueden transferir representaciones de atributos,

e.g., Self-taught clustering: clustering de una pequenacoleccion de datos sin etiquetas usando una grancantidad de datos no etiquetados de la fuente

(INAOE) 11 / 77

Introduccion





Introduccion

Transferencia Negativa

• Ocurre cuando el dominio y tarea fuentes reducen eldesempeno del aprendizaje en la tarea objetivo

• ¿Que falta?:• ¿Como evitar transferencia negativa?• Estudiar “transferibilidad” entre dominios fuente y

objetivo• ¿Se puede transferir parte del dominio?• Transferir entre dominios y tareas multiples con

diferentes atributos (heterogeneous transfer learning)• Escalarlo a aplicaciones mas grandes

(INAOE) 12 / 77

Introduccion





Introduccion

Transfer Learning

• En esta clase solo vamos a ver algunos aspectos deInductive Transfer Learning

• Nos vamos a enfocar en transferencia en tres areas:• Aprendizaje por Refuerzo• Redes Bayesianas• Arboles de decision

(INAOE) 13 / 77

Introduccion





Transfer en Aprendizaje por Refuerzo


RL:• No requiere de un modelo del ambiente• El agente aprende solo• Converge a la polıtica optima

Pero:• El aprendizaje es lento• Pocos desarrollos en ambientes complejos con

variables continuas• No se pueden reutilizar polıticas

(INAOE) 14 / 77

Introduccion







• En Aprendizaje por Refuerzo (RL), TL se usa para usarconocimiento de una o mas tareas fuente paraaprender una o mas tareas objetivo

• Los pasos a seguir son:• Dada una tarea objetivo, seleccionar la(s) tarea(s)

fuente(s) de las cuales se va a transferir• Aprender como se relacionan las tareas fuente y

objetivo• Transferir de forma efectiva conocimiento de la(s)

fuente(s) a la(s) tarea(s) objetivo

(INAOE) 15 / 77

Introduccion






Metricas de Desempeno

Se pueden usar diferentes metricas para evaluar losbeneficios de TL:• Jumpstart: El desempeno inicial de un agente en la

tarea objetivo• Desempeno asintotico: El desempeno final del agente

en la tarea objetivo• Recompensa total: La recompensa total acumulaa• Razon de transferencia: La division entre la

recompensa total acumulada con y sin transferencia• Tiempo para alcanzar el umbral: El tiempo requerido

para alcanzar un nivel de desempeno pre-establecido

(INAOE) 16 / 77

Introduccion






Efectos de TL en RL

(INAOE) 17 / 77

Introduccion






Seleccion de Diferentes Fuentes

• ¿Que suposiciones se hacen en cuanto a las posiblesdiferencias entre el fuente y el objetivo?

• ¿Como garantizar no transferir de tareas irrelevantes?• ¿Se hace seleccion de diferentes fuentes?• ¿Se hace un mapeo entre tareas? Esta dado o es

automatico? (Inter-task mapping• ¿Se puede transferir informacion cualitativa?• En general, en la mayorıa de los algoritmos el mapeo lo

da el usuario!

(INAOE) 18 / 77

Introduccion






Conocimiento a Transferir

• Puede ser conocimiento de bajo nivel, e.g., tuplas< s,a, r , s′ >, funciones de valor (V ,Q), la polıtica (π),el modelo de transicion (p(s′ | s,a))

• Pueden ser de mas alto nivel, e.g., que acciones usaren determinado momento, polıticas parciales uopciones, distribuciones a priori, atributos relevantespara aprender, reward shaping, definicion de subtareas

• ¿Que algoritmos se pueden usar?

(INAOE) 19 / 77

Introduccion






Conocimiento a Transferir

• Se puede transferir entre tareas que tengan diferentes:funciones de transicion (p(s′ | s,a)), espacio deestados (S), estados iniciales (s0), estados metas (sf ),variables de estado (S), funciones de recompensa (R),conjuntos de acciones (A), ...

• Relacionado: Multi-Task Learning suponen que todoslos problemas son de la misma distribucion, e.g.,aprender varios pendulos invertidos.

(INAOE) 20 / 77

Introduccion






Aplicaciones

Vamos a describir aplicaciones en donde:• Transferimos (hiper-)parametros• Transferimos tuplas transformadas

En un contexto de Procesos Gaussianos

(INAOE) 21 / 77

Introduccion






Procesos Gaussianos

• Distribucion Gaussiana multivariada

p(x ;µ,Σ) =1

(2π)n/2|Σ|1/2 exp(−12

(x − µ)T Σ−1(x − µ))

• Un proceso gaussiano es una generalizacion a unnumero infinito de variables: GP(m(·), k(·, ·))

(INAOE) 22 / 77

Introduccion






Motivacion

Aunque parece peor trabajar con dimensionalidad infinita, loque se calcula se hace en dimensiones finitas

(INAOE) 23 / 77

Introduccion






Procesos Gaussianos

• En particular, se debe cumplir que:

p

([~h~h∗

]|X ,X∗

)∼ N

(~0,[

k(X ,X ) k(X ,X∗)k(X∗,X ) k(X∗,X∗)

])• Para el ruido:

p([

~ε~ε∗

])∼ N

(~0,

[σ2I ~0~0T σ2I

])

(INAOE) 24 / 77

Introduccion






Procesos Gaussianos

• Suponemos que son independientes, por lo que susuma tambien lo es:[

~y~y∗

]|X ,X∗ =

[~h~h∗

]+

[~ε~ε∗

]∼

N(~0,[

k(X ,X ) + σ2I k(X ,X∗)k(X∗,X ) k(X∗,X∗) + σ2I

])

(INAOE) 25 / 77

Introduccion






Procesos Gaussianos

• Usando las reglas de condicionamiento gaussianas, sesigue que:

~y∗|~y ,X ,X∗ ∼ N (µ∗,Σ∗)

donde:

µ∗ = K (X∗,X )(K (X ,X ) + σ2I)−1~y

Σ∗ = K (X∗,X∗)+σ2I−K (X∗,X )(K (X ,X )+σ2I)−1K (X ,X∗)

(INAOE) 26 / 77

Introduccion






Kernel e Hiperparametros

k(x , x ′) = α20exp(−1

2(

(x − x ′

λ)2)

(INAOE) 27 / 77

Introduccion






Calculo de los Hiperparametros

• Recordando la definicion de una distribucion gaussianamultivariable:

p(x |µ,Σ) =1

(2π)n/2|Σ|1/2 exp(−12

(x − µ)T Σ−1(x − µ))

• P(y |x , θ) sigue una distribucion gaussiana multivariablecon media cero y covarianza de K + σ2

nI (siconsideramos ruido)

logp(y |x , θ) = −12

yT (K + σ2nI)−1y − 1

2log|K + σ2

nI| − n2

log2π

(INAOE) 28 / 77

Introduccion






Hiperparametros

• Los hiperparametros nos determinan las posiblesdistribuciones

• Para obtener los hiperparametros podemos derivar conrespecto a θ

• Se sigue un proceso basado en gradiente (es unproblema de optimizacion no-convexo), por ejemplo,basado en gradiente conjugado o quasi-Newton

• Se puede caer en mınimos locales

(INAOE) 29 / 77

Introduccion






PILCO

• PILCO (Probabilistic Inference for Learning Control)• xt = f (xt−i ,ut−i)

• P(xt |xt−i ,ut−i) = GP(m, k)

• PILCO usa diferencias como predictor: ∆t = xt − xt−i yun kernel exponencial cuadrado

(INAOE) 30 / 77

Introduccion






PILCO

Interact with environment, apply π to obtain tuplesREPEAT

Infer transition function distribution f fromtuples and hyper-parameters θ

REPEATEvaluate policy π over fGet Vπ

Improve π (Updating parameters ψ)UNTIL convergenceπ ← π(ψ)Interact with environment, apply π to obtain more tuplesLearn θpi from all tuples

UNTIL task learned

(INAOE) 31 / 77

Introduccion






Motivacion

VIDEO DE PILCO

(INAOE) 32 / 77

Introduccion






QTL• La idea es transferir hiperparametros (sesgo sobre la

distribucion de posibles funciones de transicion)• Hay que definir como hacer la transferencia• Esta se hace de forma gradual:

• Usando un factor de olvido

Θ0 = Θs

Θi = γΘi−i + (1− γ)Θpi , i > 0

• Actualizacion Bayesiana

p(Θpk ) ∼ N (µp, σ2p) σ2

k =σ2

pσ2k−i

σ2p+σ2

k+1

p(Θ | Θpk ) ∼ N (µk , σ2k ) σ2

k=0 = 1nsource

µk = σ2k

(µk−1

σ2k−1

+µp

σ2p

)σ2

p = 1ntarget

(INAOE) 33 / 77

Introduccion






Transferir Tuplas

• Al transferir tuplas se tiene que definir cuales• Filtro de Lazaric:

• ¿De donde transferir? La probabilidad de que la tareaorigen genere muestras de la tarea destino (taskcompliance)

• ¿Cuales transferir? Muestras muy relevantes o muyalejadas (relevance)

(INAOE) 34 / 77

Introduccion






SST

Sıntesis de Tuplas:• Aprender una funcion de transicion en la tarea objetivo• Aprender/usar la funcion de transicion de la tarea

original• Aprender una funcion de diferencias• En espacios poco explorados, generar ejemplos

artificiales usando los ejemplos de la tarea original y lafuncion de diferencias

(INAOE) 35 / 77

Introduccion






Donde y Cuantas Tuplas

• En lugares desconocidos (alejados en < s,a >): Si yatengo ejemplos, no necesito generar

• Generar hasta completar el numero de ejemplosusados en la tarea original

• Mantener ese numero fijo => ir reduciendo el numerode ejemplos de la tarea original conforme se explora latarea objetivo

(INAOE) 36 / 77

Introduccion






Proceso

(INAOE) 37 / 77

Introduccion






Proceso

(INAOE) 38 / 77

Introduccion






Proceso

(INAOE) 39 / 77

Introduccion






Proceso

(INAOE) 40 / 77

Introduccion






Experimentos

Probar en 3 dominios:

1 Pendulo invertido(clasico)

2 Auto en la montana(tranferencianegativa)

3 De cuadricoptero ahelicoptero

(INAOE) 41 / 77

Introduccion






Experimentos QTL

Probar:• Transferencia desde diferentes variantes• Usar hiperparametros de la tarea original• Usar la polıtica de la tarea original• Diferentes valores de γ (γ = 0 => PILCO)• Enfoque Bayesiano

(INAOE) 42 / 77

Introduccion






Resultados

(INAOE) 43 / 77

Introduccion






Resultados

(INAOE) 44 / 77

Introduccion






Resultados

(INAOE) 45 / 77

Introduccion






Experimentos SST

• PILCO• Transferir todas la tuplas• Transferir usando un filtro simple• Transferir usando el filtro de Lazaric• Todas las tuples + SST• Filtro simple + SST• Filtro Lazaric + SST

(INAOE) 46 / 77

Introduccion






Resultados SST

(INAOE) 47 / 77

Introduccion






Resultados SST

(INAOE) 48 / 77

Introduccion






Resultados SST

(INAOE) 49 / 77

Introduccion






Helicoptero a Cuadroptero

VIDEO

(INAOE) 50 / 77

Introduccion





Tranfer en Redes Bayesianas

Transfer en Redes Bayesianas

• Las Redes Bayesianas han probado ser un formalismoadecuado para tratar informacion con incertidumbre

• Para aprender una Red Bayesiana necesitamosdeterminar la estructura de la red y las tablas dedependencia condicional

• Con pocos datos lo que se aprende es poco confiable• Vamos a ver un mecanimo de transferencia usando

como base el algorithm PC

(INAOE) 51 / 77

Introduccion






Transfer en Redes Bayesianas

• PC aprende un esqueleto (grafo no dirigido) y despuesdetermina la direccion de las ligas

• Para determinar el esqueleto empieza con una red nodirigida completamente conectada y determina laindependencia condicional de cada par de variablesdados subconjuntos de variables

• TL en BNs: Algoritmo para aprendizaje de redbayesiana incorporando informacion de bases de datosauxiliares

(INAOE) 52 / 77

Introduccion






TL en BN

• Extension del algoritmo PC, para el caso en dondetenemos pocos datos para la tarea objetivo y tenemosmuchos datos de tareas fuentes

• Las diferencias con PC son en la forma en que seevaluan las pruebas de independencia

• Para cada par de variables X,Y la medida deindependiencia es una combinacion lineal de laestimacion de la tarea objetivo con la tarea del dominioauxiliar mas cercana

• La combinacion lineal es pesada por factores quedeterminan una medida de confianza

(INAOE) 53 / 77

Introduccion






Algoritmo

Initialize a complete undirected graph G′, Set i = 0repeat

for X ∈ X dofor Y ∈ ADJ(X ) do

for S ⊆ ADJ(X )− {Y}, | S |= i doFind the most similar auxiliary domain, k , and its similaritymeasure SkXY

Determine the confidence measures α(X ,Y |S) for targetand auxiliary domainsObtain the combined independence measure IF (X ,Y | S)if IF (X ,Y | S) then

Remove the edge X − Y from G′

end ifend for

end forend fori=i + 1

until | ADJ(X ) |≤ i , ∀XOrient edges in G′

(INAOE) 54 / 77

Introduccion






TL en BN

• La medida de entropıa cruzada utilizada en PCdepende del tamano de la base de datos

• Se puede mostrar que el error de esta prueba esproporcionalmente asintotico a log N

2N , donde N es eltamano de la base de datos

• Para estimar la confianza en la prueba deindependencia entre X y Y , dado S:

α(X ,Y |S) = 1− log N2N

× T

donde T =| X | × | Y | × | S |

(INAOE) 55 / 77

Introduccion






Similitud entre Tareas

• Para medir la similaridad entre tareas se usa unamedida de similaridad global y una local

• La medida global considera todas las medidas deindependencia condicional I(X ,Y | S)

SgDj = depj + indj

• depj = numero de dependencias condicionalescomunes entre la tarea objetivo y la tarea auxiliar j

• indj = numero de independencias condicionalescomunes entre todos los pares de variables en la tareaobjetivo y la tarea auxiliar j

(INAOE) 56 / 77

Introduccion






Similitud entre Tareas

• La medida local de similaridad es:

SlDj(X ,Y ) =

{1,0 If I0(X ,Y |S) = IDj(X ,Y |S)0,5 If I0(X ,Y |S) 6= IDj(X ,Y |S)

Donde:• I0(X ,Y |S) = resultado de la prueba de independencia

en la tarea objetivo• IDj (X ,Y |S) = resultado de la prueba en la tarea auxiliar j

• Las constantes dan diferente peso a las estructurasauxiliares que tienen la misma o diferente estructuralocal

(INAOE) 57 / 77

Introduccion






Similitud entre Tareas• Se combinan estas dos medidas como:

Sk∗XY = SgDk × SlDk (X ,Y )

• Y la medida combinada de independencia se calculacomo una combinacion lineal pesada de las medidasde independencia de las tareas objetivo y fuentes:

IF (X ,Y |S) = α0(X ,Y |S)× sgn(I0(X ,Y |S))+

Sk∗XY(αDXY (X ,Y |S)× sgn(IDXY (X ,Y |S))

)• sgn(I) = +1 si la prueba de independencia es positiva y−1 de otra forma

• α0(X ,Y |S) es la medida de confianza en el dominioobjetivo

• αDXY (X ,Y |S) es la medida de confianza en la tareaauxiliar mas similar para {X ,Y} condicionado en S

(INAOE) 58 / 77

Introduccion






Aprendizaje de Parametros

• Combinar las CPTs (tablas de probabilidad condicional)• Unificar variables:

• Mismas variables: facil• Mas padres en las estructuras auxiliares: aplicar

marginalizacion (sumar sobre todos los valores de lasvariables extra)

• Menos padres en las estructuras auxiliares: duplicar losvalores de las CPTs para todos los valores de lasvariables extra

• Una combinacion de las 2 anteriores: primeromarginalizar y luego duplicar

(INAOE) 59 / 77

Introduccion






Tablas de Probabilidad Condicional

Ya que se tienen las mismas variables existen varias formasde combinar los valores de las CPTs:• Lineal:

P(X ) = k ×n∑

i=1

wiPi(X )

Pi(X ) probabilidad condicional del i-esimo modelo, wies el peso asociado esa probabilidad y k es un factorde normalizacion

• Logarıtmica.

P(X ) = k ×n∏

i=1

Pi(X )wi

(INAOE) 60 / 77

Introduccion






Distance Based Linear Pool

• Obten las probabilidades promedio de todas las BDsdescontadas por su nivel de confianza (fi ):

p = kn∑

i=1

(fi × pi)

k es un factor de normalizacion, y fi depende deltamano de los datos

fi =

{1− log(cf )

cfif cf ≥ 3

1− cf×log(3)3 if cf < 3

donde cf = NT×2 , donde N es el numero de datos y T el

numero de casos en la CPT

(INAOE) 61 / 77

Introduccion






Distance Based Linear Pool

• Estima la nueva probabilidad condicional como:

p′target = (1− ci)ptarget + cip

donde: ci expresa cuanto considerar de las CPT deotras redes

ci = (di − dmin)×(

cmax − cmin

dmax − dmin

)+ cmin

donde dmax y dmin es la distancia maxima y mınima dela probabilidad objetivo con respecto al promedio y cmaxy cmin indica que tan cerca queremos considerar lainfluencia de otras CPT

(INAOE) 62 / 77

Introduccion






Local Linear Pool

• Usa solo las mas parecidas a las locales y las pesa deacuerdo a su confianza

p′target = ftarget × ptarget + (1− ftarget )× plocal

donde ftarget da el nivel de confianza en las CPTs (fi deantes) y

plocal =1n

n∑i=1

pi ∀pi s.t. pi ∈ {ptarget ± (ptarget − p)}

(INAOE) 63 / 77

Introduccion






Resultados cambiando la cantidad dedatos

(INAOE) 64 / 77

Introduccion






Resultados cambiando datos y numero defuentes

(INAOE) 65 / 77

Introduccion






TL en Redes Bayesianas de NodosTemporales

• Una red bayesiana de nodos temporales sirve paramodelar procesos dinamicos que estan caracterizadospor cambios irreversibles

Dominio auxiliar

Dominio auxiliar

Dominio auxiliar

Dominio objetivo

(INAOE) 66 / 77

Introduccion






Esquema General

(INAOE) 67 / 77

Introduccion






Determinacion de Intervalos

(INAOE) 68 / 77

Introduccion






Resultados en HIV

(INAOE) 69 / 77

Introduccion





Tranfer en Arboles de Descision

Transferencia Usando Aboles de Decision

• Se tienen datos relacionados a estres y sus modelos(arboles) para varios personas

• Se tiene un usuario nuevo, con pocos datos, y se quieredar una estimacion aceptable de su nivel de estres

• Idea: Transferir datos/modelos de otros usuarios paramejorar la prediccion del nuevo

(INAOE) 70 / 77

Introduccion






Transferencia Usando Aboles de Decision

Se probaron 4 esquemas de transferencia:1 Naıve: Encuentra el modelo mas parecido, transfiere

los datos (los junta con los del nuevo usuario) e induceun nuevo arbol

2 Umbral: Encuentra los modelos mas parecidos (arribade cierto umbral), transfiere los datos de los usuariosparecidos e induce un nuevo arbol

3 Muestreo: Encuentra los k modelos mas parecidos ymuestrea sus datos proporcionalmente a su medida desimilaridad

4 Ensamble: Usa los k modelos mas parecidos, junto conel modelo del usuario y construye un ensamble pesadopor la similaridad

(INAOE) 71 / 77

Introduccion






Medidad de Similaridad entre Arboles

• Sean Di y Dj dos arboles con H y K hojas queclasifican n ejemplos.

• Formamos la matriz:M = [mhk ], h = 1, . . . ,H y k = 1, . . . ,K donde mhk es elnumero de ejemplos que pertenencen a la h-esima hojade Di y a la k -esima hoja de Dj ymh0 =

∑Kk=1 mhk ,

m0k =∑H

h=1 mhk .• La medida se disimilatidad se define como:

d(Di ,Dj) =H∑

h=1

αh(1− sh)mh0

n+

K∑k=1

αk (1− sk )m0k

n

donde las m miden la similaridad predictiva y las α y smiden la similaridad estructural

(INAOE) 72 / 77

Introduccion






Medidad de Similaridad entre Arboles

• shk mide la similaridad entre hojas tomando en cuentalas clases y ejemplos:

shk =mhkchk√mh0m0k

k = 1, . . . ,K

donde chk = 1 si la h-esima hoja de Di tiene la mismaclase que la k -esima hoja de Dj , y chk = 0 si no.

• sh = max{shk , k = 1, . . . ,K}

(INAOE) 73 / 77

Introduccion






Medidad de Similaridad entre Arboles• αh = q − p + 1 mide la disimilaridad entre hojas,

dependiendo de la longitud de los caminos diferentes(p), y la profundidad en donde difieren (q)

• El valor maximo de d(Di ,Dj) se alcanza cuando ladiferencia entre los arboles es maxima y su similaridadde prediccion es cero

• El factor de normalizacion es:

max d(Di ,Dj) =H∑

h=1

αhmh0

n+

K∑k=1

αkm0k

n

donde αh es la longitud del nodo raız a la h-esima hoja• La medida de disimilaridad normalizada es entonces:

dn =d(Di ,Dj)

max d(Di ,Dj)

(INAOE) 74 / 77

Introduccion






Resultados

(INAOE) 75 / 77

Introduccion





Temas relacionados y preguntas abiertas

Algunas Tecnicas Relacionadas

• Lifelong learning• Imitation learing• Human advice• Shaping• Concept Drift

(INAOE) 76 / 77

Introduccion





Temas relacionados y preguntas abiertas

Preguntas Abiertas

• Si se tiene un modelo de una tarea fuente, ¿comomodificarlo para la tarea objetivo?

• ¿Se pueden modificar las tareas fuentesautomaticamente para mejorar el aprendizaje?

• ¿Se pueden tomar ideas de theoryrevision/refinementpara hacer un mapeo entre tareas?

• ¿La transferencia se podrıa utilizar para mejorar elmecanismo de exploracion del agente en la tareaobjetivo?

• Transferencia negativa: No hay trabajo que defina deforma confiable cuando una transferencia va a sernegativa

(INAOE) 77 / 77

Documents

INAOE - Ciencias Computacionales - Transfer Learningemorales/Cursos/Aprendizaje2/... · 2017. 6. 1. · Introduccion´ Transfer en Aprendizaje por Refuerzo Tranfer en Redes Bayesianas