77
Introducci ´ on Transfer en Aprendizaje por Refuerzo Tranfer en Redes Bayesianas Tranfer en ´ Arboles de Descisi ´ on Temas relacionados y preguntas abiertas Transfer Learning Eduardo Morales INAOE (INAOE) 1 / 77

INAOE - Ciencias Computacionales - Transfer Learningemorales/Cursos/Aprendizaje2/... · 2017. 6. 1. · Introduccion´ Transfer en Aprendizaje por Refuerzo Tranfer en Redes Bayesianas

  • Upload
    others

  • View
    0

  • Download
    0

Embed Size (px)

Citation preview

Page 1: INAOE - Ciencias Computacionales - Transfer Learningemorales/Cursos/Aprendizaje2/... · 2017. 6. 1. · Introduccion´ Transfer en Aprendizaje por Refuerzo Tranfer en Redes Bayesianas

Introduccion

Transfer enAprendizajepor Refuerzo

Tranfer enRedesBayesianas

Tranfer enArboles deDescision

Temasrelacionados ypreguntasabiertas

Transfer Learning

Eduardo Morales

INAOE

(INAOE) 1 / 77

Page 2: INAOE - Ciencias Computacionales - Transfer Learningemorales/Cursos/Aprendizaje2/... · 2017. 6. 1. · Introduccion´ Transfer en Aprendizaje por Refuerzo Tranfer en Redes Bayesianas

Introduccion

Transfer enAprendizajepor Refuerzo

Tranfer enRedesBayesianas

Tranfer enArboles deDescision

Temasrelacionados ypreguntasabiertas

Contenido

1 Introduccion

2 Transfer en Aprendizaje por Refuerzo

3 Tranfer en Redes Bayesianas

4 Tranfer en Arboles de Descision

5 Temas relacionados y preguntas abiertas

(INAOE) 2 / 77

Page 3: INAOE - Ciencias Computacionales - Transfer Learningemorales/Cursos/Aprendizaje2/... · 2017. 6. 1. · Introduccion´ Transfer en Aprendizaje por Refuerzo Tranfer en Redes Bayesianas

Introduccion

Transfer enAprendizajepor Refuerzo

Tranfer enRedesBayesianas

Tranfer enArboles deDescision

Temasrelacionados ypreguntasabiertas

Introduccion

Antecedentes

• Los algoritmos de aprendizaje han logrado avancesmuy importantes en los ultimos anos

• En general suponen que los ejemplos de entrenamientoy prueba tienen los mismos atributos y provienen de lamisma distribucion

• Si la distribucion cambia, normalmente se tienen quereconstruir los modelos

• En algunas aplicaciones es muy caro o no se puedenrecolectar los ejemplos de entrenamiento parareconstruir un modelo

• Aprendizaje por transferencia o transfer learning puedeayudar en tales casos

(INAOE) 3 / 77

Page 4: INAOE - Ciencias Computacionales - Transfer Learningemorales/Cursos/Aprendizaje2/... · 2017. 6. 1. · Introduccion´ Transfer en Aprendizaje por Refuerzo Tranfer en Redes Bayesianas

Introduccion

Transfer enAprendizajepor Refuerzo

Tranfer enRedesBayesianas

Tranfer enArboles deDescision

Temasrelacionados ypreguntasabiertas

Introduccion

Transfer Learning

• TL puede servir cuando los datos:• Son escasos• Estan desactualizados

• TL permite que los dominios, tareas y distribucionessean diferentes en los ejemplos de entrenamiento yprueba

(INAOE) 4 / 77

Page 5: INAOE - Ciencias Computacionales - Transfer Learningemorales/Cursos/Aprendizaje2/... · 2017. 6. 1. · Introduccion´ Transfer en Aprendizaje por Refuerzo Tranfer en Redes Bayesianas

Introduccion

Transfer enAprendizajepor Refuerzo

Tranfer enRedesBayesianas

Tranfer enArboles deDescision

Temasrelacionados ypreguntasabiertas

Introduccion

Transfer Learning

• Definicion: Dado un dominio (Df ) y tarea (Tf ) fuentes,un dominio (Do) y tarea (To) objetivos, aprendizaje portransferencia busca mejorar el aprendizaje de la funcionobjetivo usando conocimiento en Df y Tf

• Cuando las tareas son diferentes entonces losdominios de las clases son diferentes

(INAOE) 5 / 77

Page 6: INAOE - Ciencias Computacionales - Transfer Learningemorales/Cursos/Aprendizaje2/... · 2017. 6. 1. · Introduccion´ Transfer en Aprendizaje por Refuerzo Tranfer en Redes Bayesianas

Introduccion

Transfer enAprendizajepor Refuerzo

Tranfer enRedesBayesianas

Tranfer enArboles deDescision

Temasrelacionados ypreguntasabiertas

Introduccion

Transfer Learning

• En TL se consideran tres aspectos fundamentales:• ¿Que transferir?• ¿Como transferir?• ¿Cuando transferir?

• El transferir conocimiento no siempre es util y puededanar el desempeno de los algoritmos (negativetransfer)

(INAOE) 6 / 77

Page 7: INAOE - Ciencias Computacionales - Transfer Learningemorales/Cursos/Aprendizaje2/... · 2017. 6. 1. · Introduccion´ Transfer en Aprendizaje por Refuerzo Tranfer en Redes Bayesianas

Introduccion

Transfer enAprendizajepor Refuerzo

Tranfer enRedesBayesianas

Tranfer enArboles deDescision

Temasrelacionados ypreguntasabiertas

Introduccion

Algoritmos

Podemos catalogar a los algoritmos de TL en tres:• Inductive transfer learning: la tarea fuente y objetivo son

diferentes: (i) se tienen muchos datos del dominiofuente, (ii) no se tienen datos del dominio fuente

• Transductive transfer learning: las tareas de la fuente yobjetivo son las mismas, pero los dominios sondiferentes: (i) los espacios de atributos son diferentesen la fuente y en el objetivo, (ii) los atributos son igualespero las probabilidades marginales son diferentes(P(Xf ) 6= P(Xo))

• Unsupervised transfer learning: no se tienen datosetiquetados en ningun caso, las tareas son diferentespero de alguna forma relacionadas

(INAOE) 7 / 77

Page 8: INAOE - Ciencias Computacionales - Transfer Learningemorales/Cursos/Aprendizaje2/... · 2017. 6. 1. · Introduccion´ Transfer en Aprendizaje por Refuerzo Tranfer en Redes Bayesianas

Introduccion

Transfer enAprendizajepor Refuerzo

Tranfer enRedesBayesianas

Tranfer enArboles deDescision

Temasrelacionados ypreguntasabiertas

Introduccion

Algoritmos

(INAOE) 8 / 77

Page 9: INAOE - Ciencias Computacionales - Transfer Learningemorales/Cursos/Aprendizaje2/... · 2017. 6. 1. · Introduccion´ Transfer en Aprendizaje por Refuerzo Tranfer en Redes Bayesianas

Introduccion

Transfer enAprendizajepor Refuerzo

Tranfer enRedesBayesianas

Tranfer enArboles deDescision

Temasrelacionados ypreguntasabiertas

Introduccion

Inductive Transfer Learning

Opciones de conocimiento a transferir:• Transferir instancias: en este caso los espacios de

atributos son iguales, aunque no necesariamente todoslos ejemplos son utiles

• Transferir la representacion de los atributos: aprenderuna representacion de baja dimensionalidad que sepueda compartir entre tareas

• Transferir parametros: ya sean parametros odistribuciones de los algoritmos de aprendizajeutilizados

• Transferir conocimiento relacional: relacionesequivalentes entre dominios

(INAOE) 9 / 77

Page 10: INAOE - Ciencias Computacionales - Transfer Learningemorales/Cursos/Aprendizaje2/... · 2017. 6. 1. · Introduccion´ Transfer en Aprendizaje por Refuerzo Tranfer en Redes Bayesianas

Introduccion

Transfer enAprendizajepor Refuerzo

Tranfer enRedesBayesianas

Tranfer enArboles deDescision

Temasrelacionados ypreguntasabiertas

Introduccion

Transductive Transfer Learning

• En transductive learning todos los ejemplos(entrenamiento y prueba) se conocen de entrada y entransductive transfer learning se conocen algunosejemplos no etiquetados de la tarea objetivo

• Se pueden transferir:• Instancias: usan muestreos (importance sampling)• Transferir la representacion de los atributos

(INAOE) 10 / 77

Page 11: INAOE - Ciencias Computacionales - Transfer Learningemorales/Cursos/Aprendizaje2/... · 2017. 6. 1. · Introduccion´ Transfer en Aprendizaje por Refuerzo Tranfer en Redes Bayesianas

Introduccion

Transfer enAprendizajepor Refuerzo

Tranfer enRedesBayesianas

Tranfer enArboles deDescision

Temasrelacionados ypreguntasabiertas

Introduccion

Unsupervised Transfer Learning

• No se tienen etiquetas en los ejemplos fuente y objetivo• Se pueden transferir representaciones de atributos,

e.g., Self-taught clustering: clustering de una pequenacoleccion de datos sin etiquetas usando una grancantidad de datos no etiquetados de la fuente

(INAOE) 11 / 77

Page 12: INAOE - Ciencias Computacionales - Transfer Learningemorales/Cursos/Aprendizaje2/... · 2017. 6. 1. · Introduccion´ Transfer en Aprendizaje por Refuerzo Tranfer en Redes Bayesianas

Introduccion

Transfer enAprendizajepor Refuerzo

Tranfer enRedesBayesianas

Tranfer enArboles deDescision

Temasrelacionados ypreguntasabiertas

Introduccion

Transferencia Negativa

• Ocurre cuando el dominio y tarea fuentes reducen eldesempeno del aprendizaje en la tarea objetivo

• ¿Que falta?:• ¿Como evitar transferencia negativa?• Estudiar “transferibilidad” entre dominios fuente y

objetivo• ¿Se puede transferir parte del dominio?• Transferir entre dominios y tareas multiples con

diferentes atributos (heterogeneous transfer learning)• Escalarlo a aplicaciones mas grandes

(INAOE) 12 / 77

Page 13: INAOE - Ciencias Computacionales - Transfer Learningemorales/Cursos/Aprendizaje2/... · 2017. 6. 1. · Introduccion´ Transfer en Aprendizaje por Refuerzo Tranfer en Redes Bayesianas

Introduccion

Transfer enAprendizajepor Refuerzo

Tranfer enRedesBayesianas

Tranfer enArboles deDescision

Temasrelacionados ypreguntasabiertas

Introduccion

Transfer Learning

• En esta clase solo vamos a ver algunos aspectos deInductive Transfer Learning

• Nos vamos a enfocar en transferencia en tres areas:• Aprendizaje por Refuerzo• Redes Bayesianas• Arboles de decision

(INAOE) 13 / 77

Page 14: INAOE - Ciencias Computacionales - Transfer Learningemorales/Cursos/Aprendizaje2/... · 2017. 6. 1. · Introduccion´ Transfer en Aprendizaje por Refuerzo Tranfer en Redes Bayesianas

Introduccion

Transfer enAprendizajepor Refuerzo

Tranfer enRedesBayesianas

Tranfer enArboles deDescision

Temasrelacionados ypreguntasabiertas

Transfer en Aprendizaje por Refuerzo

Transfer en Aprendizaje por Refuerzo

RL:• No requiere de un modelo del ambiente• El agente aprende solo• Converge a la polıtica optima

Pero:• El aprendizaje es lento• Pocos desarrollos en ambientes complejos con

variables continuas• No se pueden reutilizar polıticas

(INAOE) 14 / 77

Page 15: INAOE - Ciencias Computacionales - Transfer Learningemorales/Cursos/Aprendizaje2/... · 2017. 6. 1. · Introduccion´ Transfer en Aprendizaje por Refuerzo Tranfer en Redes Bayesianas

Introduccion

Transfer enAprendizajepor Refuerzo

Tranfer enRedesBayesianas

Tranfer enArboles deDescision

Temasrelacionados ypreguntasabiertas

Transfer en Aprendizaje por Refuerzo

Transfer en Aprendizaje por Refuerzo

• En Aprendizaje por Refuerzo (RL), TL se usa para usarconocimiento de una o mas tareas fuente paraaprender una o mas tareas objetivo

• Los pasos a seguir son:• Dada una tarea objetivo, seleccionar la(s) tarea(s)

fuente(s) de las cuales se va a transferir• Aprender como se relacionan las tareas fuente y

objetivo• Transferir de forma efectiva conocimiento de la(s)

fuente(s) a la(s) tarea(s) objetivo

(INAOE) 15 / 77

Page 16: INAOE - Ciencias Computacionales - Transfer Learningemorales/Cursos/Aprendizaje2/... · 2017. 6. 1. · Introduccion´ Transfer en Aprendizaje por Refuerzo Tranfer en Redes Bayesianas

Introduccion

Transfer enAprendizajepor Refuerzo

Tranfer enRedesBayesianas

Tranfer enArboles deDescision

Temasrelacionados ypreguntasabiertas

Transfer en Aprendizaje por Refuerzo

Metricas de Desempeno

Se pueden usar diferentes metricas para evaluar losbeneficios de TL:• Jumpstart: El desempeno inicial de un agente en la

tarea objetivo• Desempeno asintotico: El desempeno final del agente

en la tarea objetivo• Recompensa total: La recompensa total acumulaa• Razon de transferencia: La division entre la

recompensa total acumulada con y sin transferencia• Tiempo para alcanzar el umbral: El tiempo requerido

para alcanzar un nivel de desempeno pre-establecido

(INAOE) 16 / 77

Page 17: INAOE - Ciencias Computacionales - Transfer Learningemorales/Cursos/Aprendizaje2/... · 2017. 6. 1. · Introduccion´ Transfer en Aprendizaje por Refuerzo Tranfer en Redes Bayesianas

Introduccion

Transfer enAprendizajepor Refuerzo

Tranfer enRedesBayesianas

Tranfer enArboles deDescision

Temasrelacionados ypreguntasabiertas

Transfer en Aprendizaje por Refuerzo

Efectos de TL en RL

(INAOE) 17 / 77

Page 18: INAOE - Ciencias Computacionales - Transfer Learningemorales/Cursos/Aprendizaje2/... · 2017. 6. 1. · Introduccion´ Transfer en Aprendizaje por Refuerzo Tranfer en Redes Bayesianas

Introduccion

Transfer enAprendizajepor Refuerzo

Tranfer enRedesBayesianas

Tranfer enArboles deDescision

Temasrelacionados ypreguntasabiertas

Transfer en Aprendizaje por Refuerzo

Seleccion de Diferentes Fuentes

• ¿Que suposiciones se hacen en cuanto a las posiblesdiferencias entre el fuente y el objetivo?

• ¿Como garantizar no transferir de tareas irrelevantes?• ¿Se hace seleccion de diferentes fuentes?• ¿Se hace un mapeo entre tareas? Esta dado o es

automatico? (Inter-task mapping• ¿Se puede transferir informacion cualitativa?• En general, en la mayorıa de los algoritmos el mapeo lo

da el usuario!

(INAOE) 18 / 77

Page 19: INAOE - Ciencias Computacionales - Transfer Learningemorales/Cursos/Aprendizaje2/... · 2017. 6. 1. · Introduccion´ Transfer en Aprendizaje por Refuerzo Tranfer en Redes Bayesianas

Introduccion

Transfer enAprendizajepor Refuerzo

Tranfer enRedesBayesianas

Tranfer enArboles deDescision

Temasrelacionados ypreguntasabiertas

Transfer en Aprendizaje por Refuerzo

Conocimiento a Transferir

• Puede ser conocimiento de bajo nivel, e.g., tuplas< s,a, r , s′ >, funciones de valor (V ,Q), la polıtica (π),el modelo de transicion (p(s′ | s,a))

• Pueden ser de mas alto nivel, e.g., que acciones usaren determinado momento, polıticas parciales uopciones, distribuciones a priori, atributos relevantespara aprender, reward shaping, definicion de subtareas

• ¿Que algoritmos se pueden usar?

(INAOE) 19 / 77

Page 20: INAOE - Ciencias Computacionales - Transfer Learningemorales/Cursos/Aprendizaje2/... · 2017. 6. 1. · Introduccion´ Transfer en Aprendizaje por Refuerzo Tranfer en Redes Bayesianas

Introduccion

Transfer enAprendizajepor Refuerzo

Tranfer enRedesBayesianas

Tranfer enArboles deDescision

Temasrelacionados ypreguntasabiertas

Transfer en Aprendizaje por Refuerzo

Conocimiento a Transferir

• Se puede transferir entre tareas que tengan diferentes:funciones de transicion (p(s′ | s,a)), espacio deestados (S), estados iniciales (s0), estados metas (sf ),variables de estado (S), funciones de recompensa (R),conjuntos de acciones (A), ...

• Relacionado: Multi-Task Learning suponen que todoslos problemas son de la misma distribucion, e.g.,aprender varios pendulos invertidos.

(INAOE) 20 / 77

Page 21: INAOE - Ciencias Computacionales - Transfer Learningemorales/Cursos/Aprendizaje2/... · 2017. 6. 1. · Introduccion´ Transfer en Aprendizaje por Refuerzo Tranfer en Redes Bayesianas

Introduccion

Transfer enAprendizajepor Refuerzo

Tranfer enRedesBayesianas

Tranfer enArboles deDescision

Temasrelacionados ypreguntasabiertas

Transfer en Aprendizaje por Refuerzo

Aplicaciones

Vamos a describir aplicaciones en donde:• Transferimos (hiper-)parametros• Transferimos tuplas transformadas

En un contexto de Procesos Gaussianos

(INAOE) 21 / 77

Page 22: INAOE - Ciencias Computacionales - Transfer Learningemorales/Cursos/Aprendizaje2/... · 2017. 6. 1. · Introduccion´ Transfer en Aprendizaje por Refuerzo Tranfer en Redes Bayesianas

Introduccion

Transfer enAprendizajepor Refuerzo

Tranfer enRedesBayesianas

Tranfer enArboles deDescision

Temasrelacionados ypreguntasabiertas

Transfer en Aprendizaje por Refuerzo

Procesos Gaussianos

• Distribucion Gaussiana multivariada

p(x ;µ,Σ) =1

(2π)n/2|Σ|1/2 exp(−12

(x − µ)T Σ−1(x − µ))

• Un proceso gaussiano es una generalizacion a unnumero infinito de variables: GP(m(·), k(·, ·))

(INAOE) 22 / 77

Page 23: INAOE - Ciencias Computacionales - Transfer Learningemorales/Cursos/Aprendizaje2/... · 2017. 6. 1. · Introduccion´ Transfer en Aprendizaje por Refuerzo Tranfer en Redes Bayesianas

Introduccion

Transfer enAprendizajepor Refuerzo

Tranfer enRedesBayesianas

Tranfer enArboles deDescision

Temasrelacionados ypreguntasabiertas

Transfer en Aprendizaje por Refuerzo

Motivacion

Aunque parece peor trabajar con dimensionalidad infinita, loque se calcula se hace en dimensiones finitas

(INAOE) 23 / 77

Page 24: INAOE - Ciencias Computacionales - Transfer Learningemorales/Cursos/Aprendizaje2/... · 2017. 6. 1. · Introduccion´ Transfer en Aprendizaje por Refuerzo Tranfer en Redes Bayesianas

Introduccion

Transfer enAprendizajepor Refuerzo

Tranfer enRedesBayesianas

Tranfer enArboles deDescision

Temasrelacionados ypreguntasabiertas

Transfer en Aprendizaje por Refuerzo

Procesos Gaussianos

• En particular, se debe cumplir que:

p

([~h~h∗

]|X ,X∗

)∼ N

(~0,[

k(X ,X ) k(X ,X∗)k(X∗,X ) k(X∗,X∗)

])• Para el ruido:

p([

~ε~ε∗

])∼ N

(~0,

[σ2I ~0~0T σ2I

])

(INAOE) 24 / 77

Page 25: INAOE - Ciencias Computacionales - Transfer Learningemorales/Cursos/Aprendizaje2/... · 2017. 6. 1. · Introduccion´ Transfer en Aprendizaje por Refuerzo Tranfer en Redes Bayesianas

Introduccion

Transfer enAprendizajepor Refuerzo

Tranfer enRedesBayesianas

Tranfer enArboles deDescision

Temasrelacionados ypreguntasabiertas

Transfer en Aprendizaje por Refuerzo

Procesos Gaussianos

• Suponemos que son independientes, por lo que susuma tambien lo es:[

~y~y∗

]|X ,X∗ =

[~h~h∗

]+

[~ε~ε∗

]∼

N(~0,[

k(X ,X ) + σ2I k(X ,X∗)k(X∗,X ) k(X∗,X∗) + σ2I

])

(INAOE) 25 / 77

Page 26: INAOE - Ciencias Computacionales - Transfer Learningemorales/Cursos/Aprendizaje2/... · 2017. 6. 1. · Introduccion´ Transfer en Aprendizaje por Refuerzo Tranfer en Redes Bayesianas

Introduccion

Transfer enAprendizajepor Refuerzo

Tranfer enRedesBayesianas

Tranfer enArboles deDescision

Temasrelacionados ypreguntasabiertas

Transfer en Aprendizaje por Refuerzo

Procesos Gaussianos

• Usando las reglas de condicionamiento gaussianas, sesigue que:

~y∗|~y ,X ,X∗ ∼ N (µ∗,Σ∗)

donde:

µ∗ = K (X∗,X )(K (X ,X ) + σ2I)−1~y

Σ∗ = K (X∗,X∗)+σ2I−K (X∗,X )(K (X ,X )+σ2I)−1K (X ,X∗)

(INAOE) 26 / 77

Page 27: INAOE - Ciencias Computacionales - Transfer Learningemorales/Cursos/Aprendizaje2/... · 2017. 6. 1. · Introduccion´ Transfer en Aprendizaje por Refuerzo Tranfer en Redes Bayesianas

Introduccion

Transfer enAprendizajepor Refuerzo

Tranfer enRedesBayesianas

Tranfer enArboles deDescision

Temasrelacionados ypreguntasabiertas

Transfer en Aprendizaje por Refuerzo

Kernel e Hiperparametros

k(x , x ′) = α20exp(−1

2(

(x − x ′

λ)2)

(INAOE) 27 / 77

Page 28: INAOE - Ciencias Computacionales - Transfer Learningemorales/Cursos/Aprendizaje2/... · 2017. 6. 1. · Introduccion´ Transfer en Aprendizaje por Refuerzo Tranfer en Redes Bayesianas

Introduccion

Transfer enAprendizajepor Refuerzo

Tranfer enRedesBayesianas

Tranfer enArboles deDescision

Temasrelacionados ypreguntasabiertas

Transfer en Aprendizaje por Refuerzo

Calculo de los Hiperparametros

• Recordando la definicion de una distribucion gaussianamultivariable:

p(x |µ,Σ) =1

(2π)n/2|Σ|1/2 exp(−12

(x − µ)T Σ−1(x − µ))

• P(y |x , θ) sigue una distribucion gaussiana multivariablecon media cero y covarianza de K + σ2

nI (siconsideramos ruido)

logp(y |x , θ) = −12

yT (K + σ2nI)−1y − 1

2log|K + σ2

nI| − n2

log2π

(INAOE) 28 / 77

Page 29: INAOE - Ciencias Computacionales - Transfer Learningemorales/Cursos/Aprendizaje2/... · 2017. 6. 1. · Introduccion´ Transfer en Aprendizaje por Refuerzo Tranfer en Redes Bayesianas

Introduccion

Transfer enAprendizajepor Refuerzo

Tranfer enRedesBayesianas

Tranfer enArboles deDescision

Temasrelacionados ypreguntasabiertas

Transfer en Aprendizaje por Refuerzo

Hiperparametros

• Los hiperparametros nos determinan las posiblesdistribuciones

• Para obtener los hiperparametros podemos derivar conrespecto a θ

• Se sigue un proceso basado en gradiente (es unproblema de optimizacion no-convexo), por ejemplo,basado en gradiente conjugado o quasi-Newton

• Se puede caer en mınimos locales

(INAOE) 29 / 77

Page 30: INAOE - Ciencias Computacionales - Transfer Learningemorales/Cursos/Aprendizaje2/... · 2017. 6. 1. · Introduccion´ Transfer en Aprendizaje por Refuerzo Tranfer en Redes Bayesianas

Introduccion

Transfer enAprendizajepor Refuerzo

Tranfer enRedesBayesianas

Tranfer enArboles deDescision

Temasrelacionados ypreguntasabiertas

Transfer en Aprendizaje por Refuerzo

PILCO

• PILCO (Probabilistic Inference for Learning Control)• xt = f (xt−i ,ut−i)

• P(xt |xt−i ,ut−i) = GP(m, k)

• PILCO usa diferencias como predictor: ∆t = xt − xt−i yun kernel exponencial cuadrado

(INAOE) 30 / 77

Page 31: INAOE - Ciencias Computacionales - Transfer Learningemorales/Cursos/Aprendizaje2/... · 2017. 6. 1. · Introduccion´ Transfer en Aprendizaje por Refuerzo Tranfer en Redes Bayesianas

Introduccion

Transfer enAprendizajepor Refuerzo

Tranfer enRedesBayesianas

Tranfer enArboles deDescision

Temasrelacionados ypreguntasabiertas

Transfer en Aprendizaje por Refuerzo

PILCO

Interact with environment, apply π to obtain tuplesREPEAT

Infer transition function distribution f fromtuples and hyper-parameters θ

REPEATEvaluate policy π over fGet Vπ

Improve π (Updating parameters ψ)UNTIL convergenceπ ← π(ψ)Interact with environment, apply π to obtain more tuplesLearn θpi from all tuples

UNTIL task learned

(INAOE) 31 / 77

Page 32: INAOE - Ciencias Computacionales - Transfer Learningemorales/Cursos/Aprendizaje2/... · 2017. 6. 1. · Introduccion´ Transfer en Aprendizaje por Refuerzo Tranfer en Redes Bayesianas

Introduccion

Transfer enAprendizajepor Refuerzo

Tranfer enRedesBayesianas

Tranfer enArboles deDescision

Temasrelacionados ypreguntasabiertas

Transfer en Aprendizaje por Refuerzo

Motivacion

VIDEO DE PILCO

(INAOE) 32 / 77

Page 33: INAOE - Ciencias Computacionales - Transfer Learningemorales/Cursos/Aprendizaje2/... · 2017. 6. 1. · Introduccion´ Transfer en Aprendizaje por Refuerzo Tranfer en Redes Bayesianas

Introduccion

Transfer enAprendizajepor Refuerzo

Tranfer enRedesBayesianas

Tranfer enArboles deDescision

Temasrelacionados ypreguntasabiertas

Transfer en Aprendizaje por Refuerzo

QTL• La idea es transferir hiperparametros (sesgo sobre la

distribucion de posibles funciones de transicion)• Hay que definir como hacer la transferencia• Esta se hace de forma gradual:

• Usando un factor de olvido

Θ0 = Θs

Θi = γΘi−i + (1− γ)Θpi , i > 0

• Actualizacion Bayesiana

p(Θpk ) ∼ N (µp, σ2p) σ2

k =σ2

pσ2k−i

σ2p+σ2

k+1

p(Θ | Θpk ) ∼ N (µk , σ2k ) σ2

k=0 = 1nsource

µk = σ2k

(µk−1

σ2k−1

+µp

σ2p

)σ2

p = 1ntarget

(INAOE) 33 / 77

Page 34: INAOE - Ciencias Computacionales - Transfer Learningemorales/Cursos/Aprendizaje2/... · 2017. 6. 1. · Introduccion´ Transfer en Aprendizaje por Refuerzo Tranfer en Redes Bayesianas

Introduccion

Transfer enAprendizajepor Refuerzo

Tranfer enRedesBayesianas

Tranfer enArboles deDescision

Temasrelacionados ypreguntasabiertas

Transfer en Aprendizaje por Refuerzo

Transferir Tuplas

• Al transferir tuplas se tiene que definir cuales• Filtro de Lazaric:

• ¿De donde transferir? La probabilidad de que la tareaorigen genere muestras de la tarea destino (taskcompliance)

• ¿Cuales transferir? Muestras muy relevantes o muyalejadas (relevance)

(INAOE) 34 / 77

Page 35: INAOE - Ciencias Computacionales - Transfer Learningemorales/Cursos/Aprendizaje2/... · 2017. 6. 1. · Introduccion´ Transfer en Aprendizaje por Refuerzo Tranfer en Redes Bayesianas

Introduccion

Transfer enAprendizajepor Refuerzo

Tranfer enRedesBayesianas

Tranfer enArboles deDescision

Temasrelacionados ypreguntasabiertas

Transfer en Aprendizaje por Refuerzo

SST

Sıntesis de Tuplas:• Aprender una funcion de transicion en la tarea objetivo• Aprender/usar la funcion de transicion de la tarea

original• Aprender una funcion de diferencias• En espacios poco explorados, generar ejemplos

artificiales usando los ejemplos de la tarea original y lafuncion de diferencias

(INAOE) 35 / 77

Page 36: INAOE - Ciencias Computacionales - Transfer Learningemorales/Cursos/Aprendizaje2/... · 2017. 6. 1. · Introduccion´ Transfer en Aprendizaje por Refuerzo Tranfer en Redes Bayesianas

Introduccion

Transfer enAprendizajepor Refuerzo

Tranfer enRedesBayesianas

Tranfer enArboles deDescision

Temasrelacionados ypreguntasabiertas

Transfer en Aprendizaje por Refuerzo

Donde y Cuantas Tuplas

• En lugares desconocidos (alejados en < s,a >): Si yatengo ejemplos, no necesito generar

• Generar hasta completar el numero de ejemplosusados en la tarea original

• Mantener ese numero fijo => ir reduciendo el numerode ejemplos de la tarea original conforme se explora latarea objetivo

(INAOE) 36 / 77

Page 37: INAOE - Ciencias Computacionales - Transfer Learningemorales/Cursos/Aprendizaje2/... · 2017. 6. 1. · Introduccion´ Transfer en Aprendizaje por Refuerzo Tranfer en Redes Bayesianas

Introduccion

Transfer enAprendizajepor Refuerzo

Tranfer enRedesBayesianas

Tranfer enArboles deDescision

Temasrelacionados ypreguntasabiertas

Transfer en Aprendizaje por Refuerzo

Proceso

(INAOE) 37 / 77

Page 38: INAOE - Ciencias Computacionales - Transfer Learningemorales/Cursos/Aprendizaje2/... · 2017. 6. 1. · Introduccion´ Transfer en Aprendizaje por Refuerzo Tranfer en Redes Bayesianas

Introduccion

Transfer enAprendizajepor Refuerzo

Tranfer enRedesBayesianas

Tranfer enArboles deDescision

Temasrelacionados ypreguntasabiertas

Transfer en Aprendizaje por Refuerzo

Proceso

(INAOE) 38 / 77

Page 39: INAOE - Ciencias Computacionales - Transfer Learningemorales/Cursos/Aprendizaje2/... · 2017. 6. 1. · Introduccion´ Transfer en Aprendizaje por Refuerzo Tranfer en Redes Bayesianas

Introduccion

Transfer enAprendizajepor Refuerzo

Tranfer enRedesBayesianas

Tranfer enArboles deDescision

Temasrelacionados ypreguntasabiertas

Transfer en Aprendizaje por Refuerzo

Proceso

(INAOE) 39 / 77

Page 40: INAOE - Ciencias Computacionales - Transfer Learningemorales/Cursos/Aprendizaje2/... · 2017. 6. 1. · Introduccion´ Transfer en Aprendizaje por Refuerzo Tranfer en Redes Bayesianas

Introduccion

Transfer enAprendizajepor Refuerzo

Tranfer enRedesBayesianas

Tranfer enArboles deDescision

Temasrelacionados ypreguntasabiertas

Transfer en Aprendizaje por Refuerzo

Proceso

(INAOE) 40 / 77

Page 41: INAOE - Ciencias Computacionales - Transfer Learningemorales/Cursos/Aprendizaje2/... · 2017. 6. 1. · Introduccion´ Transfer en Aprendizaje por Refuerzo Tranfer en Redes Bayesianas

Introduccion

Transfer enAprendizajepor Refuerzo

Tranfer enRedesBayesianas

Tranfer enArboles deDescision

Temasrelacionados ypreguntasabiertas

Transfer en Aprendizaje por Refuerzo

Experimentos

Probar en 3 dominios:

1 Pendulo invertido(clasico)

2 Auto en la montana(tranferencianegativa)

3 De cuadricoptero ahelicoptero

(INAOE) 41 / 77

Page 42: INAOE - Ciencias Computacionales - Transfer Learningemorales/Cursos/Aprendizaje2/... · 2017. 6. 1. · Introduccion´ Transfer en Aprendizaje por Refuerzo Tranfer en Redes Bayesianas

Introduccion

Transfer enAprendizajepor Refuerzo

Tranfer enRedesBayesianas

Tranfer enArboles deDescision

Temasrelacionados ypreguntasabiertas

Transfer en Aprendizaje por Refuerzo

Experimentos QTL

Probar:• Transferencia desde diferentes variantes• Usar hiperparametros de la tarea original• Usar la polıtica de la tarea original• Diferentes valores de γ (γ = 0 => PILCO)• Enfoque Bayesiano

(INAOE) 42 / 77

Page 43: INAOE - Ciencias Computacionales - Transfer Learningemorales/Cursos/Aprendizaje2/... · 2017. 6. 1. · Introduccion´ Transfer en Aprendizaje por Refuerzo Tranfer en Redes Bayesianas

Introduccion

Transfer enAprendizajepor Refuerzo

Tranfer enRedesBayesianas

Tranfer enArboles deDescision

Temasrelacionados ypreguntasabiertas

Transfer en Aprendizaje por Refuerzo

Resultados

(INAOE) 43 / 77

Page 44: INAOE - Ciencias Computacionales - Transfer Learningemorales/Cursos/Aprendizaje2/... · 2017. 6. 1. · Introduccion´ Transfer en Aprendizaje por Refuerzo Tranfer en Redes Bayesianas

Introduccion

Transfer enAprendizajepor Refuerzo

Tranfer enRedesBayesianas

Tranfer enArboles deDescision

Temasrelacionados ypreguntasabiertas

Transfer en Aprendizaje por Refuerzo

Resultados

(INAOE) 44 / 77

Page 45: INAOE - Ciencias Computacionales - Transfer Learningemorales/Cursos/Aprendizaje2/... · 2017. 6. 1. · Introduccion´ Transfer en Aprendizaje por Refuerzo Tranfer en Redes Bayesianas

Introduccion

Transfer enAprendizajepor Refuerzo

Tranfer enRedesBayesianas

Tranfer enArboles deDescision

Temasrelacionados ypreguntasabiertas

Transfer en Aprendizaje por Refuerzo

Resultados

(INAOE) 45 / 77

Page 46: INAOE - Ciencias Computacionales - Transfer Learningemorales/Cursos/Aprendizaje2/... · 2017. 6. 1. · Introduccion´ Transfer en Aprendizaje por Refuerzo Tranfer en Redes Bayesianas

Introduccion

Transfer enAprendizajepor Refuerzo

Tranfer enRedesBayesianas

Tranfer enArboles deDescision

Temasrelacionados ypreguntasabiertas

Transfer en Aprendizaje por Refuerzo

Experimentos SST

• PILCO• Transferir todas la tuplas• Transferir usando un filtro simple• Transferir usando el filtro de Lazaric• Todas las tuples + SST• Filtro simple + SST• Filtro Lazaric + SST

(INAOE) 46 / 77

Page 47: INAOE - Ciencias Computacionales - Transfer Learningemorales/Cursos/Aprendizaje2/... · 2017. 6. 1. · Introduccion´ Transfer en Aprendizaje por Refuerzo Tranfer en Redes Bayesianas

Introduccion

Transfer enAprendizajepor Refuerzo

Tranfer enRedesBayesianas

Tranfer enArboles deDescision

Temasrelacionados ypreguntasabiertas

Transfer en Aprendizaje por Refuerzo

Resultados SST

(INAOE) 47 / 77

Page 48: INAOE - Ciencias Computacionales - Transfer Learningemorales/Cursos/Aprendizaje2/... · 2017. 6. 1. · Introduccion´ Transfer en Aprendizaje por Refuerzo Tranfer en Redes Bayesianas

Introduccion

Transfer enAprendizajepor Refuerzo

Tranfer enRedesBayesianas

Tranfer enArboles deDescision

Temasrelacionados ypreguntasabiertas

Transfer en Aprendizaje por Refuerzo

Resultados SST

(INAOE) 48 / 77

Page 49: INAOE - Ciencias Computacionales - Transfer Learningemorales/Cursos/Aprendizaje2/... · 2017. 6. 1. · Introduccion´ Transfer en Aprendizaje por Refuerzo Tranfer en Redes Bayesianas

Introduccion

Transfer enAprendizajepor Refuerzo

Tranfer enRedesBayesianas

Tranfer enArboles deDescision

Temasrelacionados ypreguntasabiertas

Transfer en Aprendizaje por Refuerzo

Resultados SST

(INAOE) 49 / 77

Page 50: INAOE - Ciencias Computacionales - Transfer Learningemorales/Cursos/Aprendizaje2/... · 2017. 6. 1. · Introduccion´ Transfer en Aprendizaje por Refuerzo Tranfer en Redes Bayesianas

Introduccion

Transfer enAprendizajepor Refuerzo

Tranfer enRedesBayesianas

Tranfer enArboles deDescision

Temasrelacionados ypreguntasabiertas

Transfer en Aprendizaje por Refuerzo

Helicoptero a Cuadroptero

VIDEO

(INAOE) 50 / 77

Page 51: INAOE - Ciencias Computacionales - Transfer Learningemorales/Cursos/Aprendizaje2/... · 2017. 6. 1. · Introduccion´ Transfer en Aprendizaje por Refuerzo Tranfer en Redes Bayesianas

Introduccion

Transfer enAprendizajepor Refuerzo

Tranfer enRedesBayesianas

Tranfer enArboles deDescision

Temasrelacionados ypreguntasabiertas

Tranfer en Redes Bayesianas

Transfer en Redes Bayesianas

• Las Redes Bayesianas han probado ser un formalismoadecuado para tratar informacion con incertidumbre

• Para aprender una Red Bayesiana necesitamosdeterminar la estructura de la red y las tablas dedependencia condicional

• Con pocos datos lo que se aprende es poco confiable• Vamos a ver un mecanimo de transferencia usando

como base el algorithm PC

(INAOE) 51 / 77

Page 52: INAOE - Ciencias Computacionales - Transfer Learningemorales/Cursos/Aprendizaje2/... · 2017. 6. 1. · Introduccion´ Transfer en Aprendizaje por Refuerzo Tranfer en Redes Bayesianas

Introduccion

Transfer enAprendizajepor Refuerzo

Tranfer enRedesBayesianas

Tranfer enArboles deDescision

Temasrelacionados ypreguntasabiertas

Tranfer en Redes Bayesianas

Transfer en Redes Bayesianas

• PC aprende un esqueleto (grafo no dirigido) y despuesdetermina la direccion de las ligas

• Para determinar el esqueleto empieza con una red nodirigida completamente conectada y determina laindependencia condicional de cada par de variablesdados subconjuntos de variables

• TL en BNs: Algoritmo para aprendizaje de redbayesiana incorporando informacion de bases de datosauxiliares

(INAOE) 52 / 77

Page 53: INAOE - Ciencias Computacionales - Transfer Learningemorales/Cursos/Aprendizaje2/... · 2017. 6. 1. · Introduccion´ Transfer en Aprendizaje por Refuerzo Tranfer en Redes Bayesianas

Introduccion

Transfer enAprendizajepor Refuerzo

Tranfer enRedesBayesianas

Tranfer enArboles deDescision

Temasrelacionados ypreguntasabiertas

Tranfer en Redes Bayesianas

TL en BN

• Extension del algoritmo PC, para el caso en dondetenemos pocos datos para la tarea objetivo y tenemosmuchos datos de tareas fuentes

• Las diferencias con PC son en la forma en que seevaluan las pruebas de independencia

• Para cada par de variables X,Y la medida deindependiencia es una combinacion lineal de laestimacion de la tarea objetivo con la tarea del dominioauxiliar mas cercana

• La combinacion lineal es pesada por factores quedeterminan una medida de confianza

(INAOE) 53 / 77

Page 54: INAOE - Ciencias Computacionales - Transfer Learningemorales/Cursos/Aprendizaje2/... · 2017. 6. 1. · Introduccion´ Transfer en Aprendizaje por Refuerzo Tranfer en Redes Bayesianas

Introduccion

Transfer enAprendizajepor Refuerzo

Tranfer enRedesBayesianas

Tranfer enArboles deDescision

Temasrelacionados ypreguntasabiertas

Tranfer en Redes Bayesianas

Algoritmo

Initialize a complete undirected graph G′, Set i = 0repeat

for X ∈ X dofor Y ∈ ADJ(X ) do

for S ⊆ ADJ(X )− {Y}, | S |= i doFind the most similar auxiliary domain, k , and its similaritymeasure SkXY

Determine the confidence measures α(X ,Y |S) for targetand auxiliary domainsObtain the combined independence measure IF (X ,Y | S)if IF (X ,Y | S) then

Remove the edge X − Y from G′

end ifend for

end forend fori=i + 1

until | ADJ(X ) |≤ i , ∀XOrient edges in G′

(INAOE) 54 / 77

Page 55: INAOE - Ciencias Computacionales - Transfer Learningemorales/Cursos/Aprendizaje2/... · 2017. 6. 1. · Introduccion´ Transfer en Aprendizaje por Refuerzo Tranfer en Redes Bayesianas

Introduccion

Transfer enAprendizajepor Refuerzo

Tranfer enRedesBayesianas

Tranfer enArboles deDescision

Temasrelacionados ypreguntasabiertas

Tranfer en Redes Bayesianas

TL en BN

• La medida de entropıa cruzada utilizada en PCdepende del tamano de la base de datos

• Se puede mostrar que el error de esta prueba esproporcionalmente asintotico a log N

2N , donde N es eltamano de la base de datos

• Para estimar la confianza en la prueba deindependencia entre X y Y , dado S:

α(X ,Y |S) = 1− log N2N

× T

donde T =| X | × | Y | × | S |

(INAOE) 55 / 77

Page 56: INAOE - Ciencias Computacionales - Transfer Learningemorales/Cursos/Aprendizaje2/... · 2017. 6. 1. · Introduccion´ Transfer en Aprendizaje por Refuerzo Tranfer en Redes Bayesianas

Introduccion

Transfer enAprendizajepor Refuerzo

Tranfer enRedesBayesianas

Tranfer enArboles deDescision

Temasrelacionados ypreguntasabiertas

Tranfer en Redes Bayesianas

Similitud entre Tareas

• Para medir la similaridad entre tareas se usa unamedida de similaridad global y una local

• La medida global considera todas las medidas deindependencia condicional I(X ,Y | S)

SgDj = depj + indj

• depj = numero de dependencias condicionalescomunes entre la tarea objetivo y la tarea auxiliar j

• indj = numero de independencias condicionalescomunes entre todos los pares de variables en la tareaobjetivo y la tarea auxiliar j

(INAOE) 56 / 77

Page 57: INAOE - Ciencias Computacionales - Transfer Learningemorales/Cursos/Aprendizaje2/... · 2017. 6. 1. · Introduccion´ Transfer en Aprendizaje por Refuerzo Tranfer en Redes Bayesianas

Introduccion

Transfer enAprendizajepor Refuerzo

Tranfer enRedesBayesianas

Tranfer enArboles deDescision

Temasrelacionados ypreguntasabiertas

Tranfer en Redes Bayesianas

Similitud entre Tareas

• La medida local de similaridad es:

SlDj(X ,Y ) =

{1,0 If I0(X ,Y |S) = IDj(X ,Y |S)0,5 If I0(X ,Y |S) 6= IDj(X ,Y |S)

Donde:• I0(X ,Y |S) = resultado de la prueba de independencia

en la tarea objetivo• IDj (X ,Y |S) = resultado de la prueba en la tarea auxiliar j

• Las constantes dan diferente peso a las estructurasauxiliares que tienen la misma o diferente estructuralocal

(INAOE) 57 / 77

Page 58: INAOE - Ciencias Computacionales - Transfer Learningemorales/Cursos/Aprendizaje2/... · 2017. 6. 1. · Introduccion´ Transfer en Aprendizaje por Refuerzo Tranfer en Redes Bayesianas

Introduccion

Transfer enAprendizajepor Refuerzo

Tranfer enRedesBayesianas

Tranfer enArboles deDescision

Temasrelacionados ypreguntasabiertas

Tranfer en Redes Bayesianas

Similitud entre Tareas• Se combinan estas dos medidas como:

Sk∗XY = SgDk × SlDk (X ,Y )

• Y la medida combinada de independencia se calculacomo una combinacion lineal pesada de las medidasde independencia de las tareas objetivo y fuentes:

IF (X ,Y |S) = α0(X ,Y |S)× sgn(I0(X ,Y |S))+

Sk∗XY(αDXY (X ,Y |S)× sgn(IDXY (X ,Y |S))

)• sgn(I) = +1 si la prueba de independencia es positiva y−1 de otra forma

• α0(X ,Y |S) es la medida de confianza en el dominioobjetivo

• αDXY (X ,Y |S) es la medida de confianza en la tareaauxiliar mas similar para {X ,Y} condicionado en S

(INAOE) 58 / 77

Page 59: INAOE - Ciencias Computacionales - Transfer Learningemorales/Cursos/Aprendizaje2/... · 2017. 6. 1. · Introduccion´ Transfer en Aprendizaje por Refuerzo Tranfer en Redes Bayesianas

Introduccion

Transfer enAprendizajepor Refuerzo

Tranfer enRedesBayesianas

Tranfer enArboles deDescision

Temasrelacionados ypreguntasabiertas

Tranfer en Redes Bayesianas

Aprendizaje de Parametros

• Combinar las CPTs (tablas de probabilidad condicional)• Unificar variables:

• Mismas variables: facil• Mas padres en las estructuras auxiliares: aplicar

marginalizacion (sumar sobre todos los valores de lasvariables extra)

• Menos padres en las estructuras auxiliares: duplicar losvalores de las CPTs para todos los valores de lasvariables extra

• Una combinacion de las 2 anteriores: primeromarginalizar y luego duplicar

(INAOE) 59 / 77

Page 60: INAOE - Ciencias Computacionales - Transfer Learningemorales/Cursos/Aprendizaje2/... · 2017. 6. 1. · Introduccion´ Transfer en Aprendizaje por Refuerzo Tranfer en Redes Bayesianas

Introduccion

Transfer enAprendizajepor Refuerzo

Tranfer enRedesBayesianas

Tranfer enArboles deDescision

Temasrelacionados ypreguntasabiertas

Tranfer en Redes Bayesianas

Tablas de Probabilidad Condicional

Ya que se tienen las mismas variables existen varias formasde combinar los valores de las CPTs:• Lineal:

P(X ) = k ×n∑

i=1

wiPi(X )

Pi(X ) probabilidad condicional del i-esimo modelo, wies el peso asociado esa probabilidad y k es un factorde normalizacion

• Logarıtmica.

P(X ) = k ×n∏

i=1

Pi(X )wi

(INAOE) 60 / 77

Page 61: INAOE - Ciencias Computacionales - Transfer Learningemorales/Cursos/Aprendizaje2/... · 2017. 6. 1. · Introduccion´ Transfer en Aprendizaje por Refuerzo Tranfer en Redes Bayesianas

Introduccion

Transfer enAprendizajepor Refuerzo

Tranfer enRedesBayesianas

Tranfer enArboles deDescision

Temasrelacionados ypreguntasabiertas

Tranfer en Redes Bayesianas

Distance Based Linear Pool

• Obten las probabilidades promedio de todas las BDsdescontadas por su nivel de confianza (fi ):

p = kn∑

i=1

(fi × pi)

k es un factor de normalizacion, y fi depende deltamano de los datos

fi =

{1− log(cf )

cfif cf ≥ 3

1− cf×log(3)3 if cf < 3

donde cf = NT×2 , donde N es el numero de datos y T el

numero de casos en la CPT

(INAOE) 61 / 77

Page 62: INAOE - Ciencias Computacionales - Transfer Learningemorales/Cursos/Aprendizaje2/... · 2017. 6. 1. · Introduccion´ Transfer en Aprendizaje por Refuerzo Tranfer en Redes Bayesianas

Introduccion

Transfer enAprendizajepor Refuerzo

Tranfer enRedesBayesianas

Tranfer enArboles deDescision

Temasrelacionados ypreguntasabiertas

Tranfer en Redes Bayesianas

Distance Based Linear Pool

• Estima la nueva probabilidad condicional como:

p′target = (1− ci)ptarget + cip

donde: ci expresa cuanto considerar de las CPT deotras redes

ci = (di − dmin)×(

cmax − cmin

dmax − dmin

)+ cmin

donde dmax y dmin es la distancia maxima y mınima dela probabilidad objetivo con respecto al promedio y cmaxy cmin indica que tan cerca queremos considerar lainfluencia de otras CPT

(INAOE) 62 / 77

Page 63: INAOE - Ciencias Computacionales - Transfer Learningemorales/Cursos/Aprendizaje2/... · 2017. 6. 1. · Introduccion´ Transfer en Aprendizaje por Refuerzo Tranfer en Redes Bayesianas

Introduccion

Transfer enAprendizajepor Refuerzo

Tranfer enRedesBayesianas

Tranfer enArboles deDescision

Temasrelacionados ypreguntasabiertas

Tranfer en Redes Bayesianas

Local Linear Pool

• Usa solo las mas parecidas a las locales y las pesa deacuerdo a su confianza

p′target = ftarget × ptarget + (1− ftarget )× plocal

donde ftarget da el nivel de confianza en las CPTs (fi deantes) y

plocal =1n

n∑i=1

pi ∀pi s.t. pi ∈ {ptarget ± (ptarget − p)}

(INAOE) 63 / 77

Page 64: INAOE - Ciencias Computacionales - Transfer Learningemorales/Cursos/Aprendizaje2/... · 2017. 6. 1. · Introduccion´ Transfer en Aprendizaje por Refuerzo Tranfer en Redes Bayesianas

Introduccion

Transfer enAprendizajepor Refuerzo

Tranfer enRedesBayesianas

Tranfer enArboles deDescision

Temasrelacionados ypreguntasabiertas

Tranfer en Redes Bayesianas

Resultados cambiando la cantidad dedatos

(INAOE) 64 / 77

Page 65: INAOE - Ciencias Computacionales - Transfer Learningemorales/Cursos/Aprendizaje2/... · 2017. 6. 1. · Introduccion´ Transfer en Aprendizaje por Refuerzo Tranfer en Redes Bayesianas

Introduccion

Transfer enAprendizajepor Refuerzo

Tranfer enRedesBayesianas

Tranfer enArboles deDescision

Temasrelacionados ypreguntasabiertas

Tranfer en Redes Bayesianas

Resultados cambiando datos y numero defuentes

(INAOE) 65 / 77

Page 66: INAOE - Ciencias Computacionales - Transfer Learningemorales/Cursos/Aprendizaje2/... · 2017. 6. 1. · Introduccion´ Transfer en Aprendizaje por Refuerzo Tranfer en Redes Bayesianas

Introduccion

Transfer enAprendizajepor Refuerzo

Tranfer enRedesBayesianas

Tranfer enArboles deDescision

Temasrelacionados ypreguntasabiertas

Tranfer en Redes Bayesianas

TL en Redes Bayesianas de NodosTemporales

• Una red bayesiana de nodos temporales sirve paramodelar procesos dinamicos que estan caracterizadospor cambios irreversibles

Dominio auxiliar

Dominio auxiliar

Dominio auxiliar

Dominio objetivo

(INAOE) 66 / 77

Page 67: INAOE - Ciencias Computacionales - Transfer Learningemorales/Cursos/Aprendizaje2/... · 2017. 6. 1. · Introduccion´ Transfer en Aprendizaje por Refuerzo Tranfer en Redes Bayesianas

Introduccion

Transfer enAprendizajepor Refuerzo

Tranfer enRedesBayesianas

Tranfer enArboles deDescision

Temasrelacionados ypreguntasabiertas

Tranfer en Redes Bayesianas

Esquema General

(INAOE) 67 / 77

Page 68: INAOE - Ciencias Computacionales - Transfer Learningemorales/Cursos/Aprendizaje2/... · 2017. 6. 1. · Introduccion´ Transfer en Aprendizaje por Refuerzo Tranfer en Redes Bayesianas

Introduccion

Transfer enAprendizajepor Refuerzo

Tranfer enRedesBayesianas

Tranfer enArboles deDescision

Temasrelacionados ypreguntasabiertas

Tranfer en Redes Bayesianas

Determinacion de Intervalos

(INAOE) 68 / 77

Page 69: INAOE - Ciencias Computacionales - Transfer Learningemorales/Cursos/Aprendizaje2/... · 2017. 6. 1. · Introduccion´ Transfer en Aprendizaje por Refuerzo Tranfer en Redes Bayesianas

Introduccion

Transfer enAprendizajepor Refuerzo

Tranfer enRedesBayesianas

Tranfer enArboles deDescision

Temasrelacionados ypreguntasabiertas

Tranfer en Redes Bayesianas

Resultados en HIV

(INAOE) 69 / 77

Page 70: INAOE - Ciencias Computacionales - Transfer Learningemorales/Cursos/Aprendizaje2/... · 2017. 6. 1. · Introduccion´ Transfer en Aprendizaje por Refuerzo Tranfer en Redes Bayesianas

Introduccion

Transfer enAprendizajepor Refuerzo

Tranfer enRedesBayesianas

Tranfer enArboles deDescision

Temasrelacionados ypreguntasabiertas

Tranfer en Arboles de Descision

Transferencia Usando Aboles de Decision

• Se tienen datos relacionados a estres y sus modelos(arboles) para varios personas

• Se tiene un usuario nuevo, con pocos datos, y se quieredar una estimacion aceptable de su nivel de estres

• Idea: Transferir datos/modelos de otros usuarios paramejorar la prediccion del nuevo

(INAOE) 70 / 77

Page 71: INAOE - Ciencias Computacionales - Transfer Learningemorales/Cursos/Aprendizaje2/... · 2017. 6. 1. · Introduccion´ Transfer en Aprendizaje por Refuerzo Tranfer en Redes Bayesianas

Introduccion

Transfer enAprendizajepor Refuerzo

Tranfer enRedesBayesianas

Tranfer enArboles deDescision

Temasrelacionados ypreguntasabiertas

Tranfer en Arboles de Descision

Transferencia Usando Aboles de Decision

Se probaron 4 esquemas de transferencia:1 Naıve: Encuentra el modelo mas parecido, transfiere

los datos (los junta con los del nuevo usuario) e induceun nuevo arbol

2 Umbral: Encuentra los modelos mas parecidos (arribade cierto umbral), transfiere los datos de los usuariosparecidos e induce un nuevo arbol

3 Muestreo: Encuentra los k modelos mas parecidos ymuestrea sus datos proporcionalmente a su medida desimilaridad

4 Ensamble: Usa los k modelos mas parecidos, junto conel modelo del usuario y construye un ensamble pesadopor la similaridad

(INAOE) 71 / 77

Page 72: INAOE - Ciencias Computacionales - Transfer Learningemorales/Cursos/Aprendizaje2/... · 2017. 6. 1. · Introduccion´ Transfer en Aprendizaje por Refuerzo Tranfer en Redes Bayesianas

Introduccion

Transfer enAprendizajepor Refuerzo

Tranfer enRedesBayesianas

Tranfer enArboles deDescision

Temasrelacionados ypreguntasabiertas

Tranfer en Arboles de Descision

Medidad de Similaridad entre Arboles

• Sean Di y Dj dos arboles con H y K hojas queclasifican n ejemplos.

• Formamos la matriz:M = [mhk ], h = 1, . . . ,H y k = 1, . . . ,K donde mhk es elnumero de ejemplos que pertenencen a la h-esima hojade Di y a la k -esima hoja de Dj ymh0 =

∑Kk=1 mhk ,

m0k =∑H

h=1 mhk .• La medida se disimilatidad se define como:

d(Di ,Dj) =H∑

h=1

αh(1− sh)mh0

n+

K∑k=1

αk (1− sk )m0k

n

donde las m miden la similaridad predictiva y las α y smiden la similaridad estructural

(INAOE) 72 / 77

Page 73: INAOE - Ciencias Computacionales - Transfer Learningemorales/Cursos/Aprendizaje2/... · 2017. 6. 1. · Introduccion´ Transfer en Aprendizaje por Refuerzo Tranfer en Redes Bayesianas

Introduccion

Transfer enAprendizajepor Refuerzo

Tranfer enRedesBayesianas

Tranfer enArboles deDescision

Temasrelacionados ypreguntasabiertas

Tranfer en Arboles de Descision

Medidad de Similaridad entre Arboles

• shk mide la similaridad entre hojas tomando en cuentalas clases y ejemplos:

shk =mhkchk√mh0m0k

k = 1, . . . ,K

donde chk = 1 si la h-esima hoja de Di tiene la mismaclase que la k -esima hoja de Dj , y chk = 0 si no.

• sh = max{shk , k = 1, . . . ,K}

(INAOE) 73 / 77

Page 74: INAOE - Ciencias Computacionales - Transfer Learningemorales/Cursos/Aprendizaje2/... · 2017. 6. 1. · Introduccion´ Transfer en Aprendizaje por Refuerzo Tranfer en Redes Bayesianas

Introduccion

Transfer enAprendizajepor Refuerzo

Tranfer enRedesBayesianas

Tranfer enArboles deDescision

Temasrelacionados ypreguntasabiertas

Tranfer en Arboles de Descision

Medidad de Similaridad entre Arboles• αh = q − p + 1 mide la disimilaridad entre hojas,

dependiendo de la longitud de los caminos diferentes(p), y la profundidad en donde difieren (q)

• El valor maximo de d(Di ,Dj) se alcanza cuando ladiferencia entre los arboles es maxima y su similaridadde prediccion es cero

• El factor de normalizacion es:

max d(Di ,Dj) =H∑

h=1

αhmh0

n+

K∑k=1

αkm0k

n

donde αh es la longitud del nodo raız a la h-esima hoja• La medida de disimilaridad normalizada es entonces:

dn =d(Di ,Dj)

max d(Di ,Dj)

(INAOE) 74 / 77

Page 75: INAOE - Ciencias Computacionales - Transfer Learningemorales/Cursos/Aprendizaje2/... · 2017. 6. 1. · Introduccion´ Transfer en Aprendizaje por Refuerzo Tranfer en Redes Bayesianas

Introduccion

Transfer enAprendizajepor Refuerzo

Tranfer enRedesBayesianas

Tranfer enArboles deDescision

Temasrelacionados ypreguntasabiertas

Tranfer en Arboles de Descision

Resultados

(INAOE) 75 / 77

Page 76: INAOE - Ciencias Computacionales - Transfer Learningemorales/Cursos/Aprendizaje2/... · 2017. 6. 1. · Introduccion´ Transfer en Aprendizaje por Refuerzo Tranfer en Redes Bayesianas

Introduccion

Transfer enAprendizajepor Refuerzo

Tranfer enRedesBayesianas

Tranfer enArboles deDescision

Temasrelacionados ypreguntasabiertas

Temas relacionados y preguntas abiertas

Algunas Tecnicas Relacionadas

• Lifelong learning• Imitation learing• Human advice• Shaping• Concept Drift

(INAOE) 76 / 77

Page 77: INAOE - Ciencias Computacionales - Transfer Learningemorales/Cursos/Aprendizaje2/... · 2017. 6. 1. · Introduccion´ Transfer en Aprendizaje por Refuerzo Tranfer en Redes Bayesianas

Introduccion

Transfer enAprendizajepor Refuerzo

Tranfer enRedesBayesianas

Tranfer enArboles deDescision

Temasrelacionados ypreguntasabiertas

Temas relacionados y preguntas abiertas

Preguntas Abiertas

• Si se tiene un modelo de una tarea fuente, ¿comomodificarlo para la tarea objetivo?

• ¿Se pueden modificar las tareas fuentesautomaticamente para mejorar el aprendizaje?

• ¿Se pueden tomar ideas de theoryrevision/refinementpara hacer un mapeo entre tareas?

• ¿La transferencia se podrıa utilizar para mejorar elmecanismo de exploracion del agente en la tareaobjetivo?

• Transferencia negativa: No hay trabajo que defina deforma confiable cuando una transferencia va a sernegativa

(INAOE) 77 / 77