View
36
Download
2
Category
Preview:
DESCRIPTION
Metodos de aproximacion basado en integracion numerica
Citation preview
Metodos de aproximacion basados enintegracion numerica
Felipe Osorio
felipe.osorio@uv.cl www.deuv.cl/osorio
MAT305 - Metodos Estadısticos, UTFSM
Cuadratura Gaussiana
Considere h(t) funcion regular (uni-dimensional) y
g(t) = h(t)(2πσ2)−1/2 exp− 1
2
(t−µσ
)2.
Cuadratura gaussiana utiliza la siguiente aproximacion∫Rg(t) dt ≈
M∑j=1
mj g(zj),
dondemj = wj exp(t2j )
√2σ, zj = µ+
√2σtj .
Para implementar este enfoque, tablas de tj , wj y wj exp(t2j ) son requeridas
(Naylor y Smith, 1982).
Cuadratura Gaussiana
Aproxima integrales con relacion a un kernel fijado por un promedioponderado del integrando evaluado en abscisas predeterminadas.
Los pesos y abscisas usadas en la cuadratura Gaussiana para los kernelsusuales pueden ser obtenidos desde tablas (Abramowitz y Stegun, 1964) opor un algoritmo propuesto por Golub (1973).
Es bien conocido que las reglas para cuadratura Gaussiana en el caso deintegrales multiples es numericamente complejo (curse of dimensionality).
Metodo Monte Carlo
Considere aproximar la integral
J =
∫h(x)g(x) dx = Egh(x) < +∞.
Si g(x) es una densidad, entonces el metodo Monte Carlo aproxima J como
JM =1
M
M∑j=1
h(xj)
donde x1, . . . , xMiid∼ g(x). Por la Ley de grandes numeros, tenemos
JMc.s→ J.
Importance Sampling
Cuando no es posible muestrear directamente desde g(x) una alternativa esusar Importance sampling.
J =
∫h(x)
( g(x)
π(x)
)π(x) dx,
tal que π(x) es una densidad facil de muestrear. Luego, importance samplingaproxima J como
JM =1∑M
j=1 wj
M∑j=1
wjh(xj),
donde x1, . . . , xM ∼ π(x) y wj = g(xj)/π(xj).
Funcion de verosimilitud
Se desea aproximar la funcion de verosimilitud
L(β,θ, σ2) =
n∏i=1
∫Rq
(2πσ2)−(ni+q)/2|∆| exp−g(β,θ,yi, bi)/2σ2dbi
dondeg(β,θ,yi, bi) = ‖Y i − f i(zi, bi)‖
2 + ‖∆bi‖2.
Funcion de verosimilitud
Sea
bi = bi(β,θ,yi) = arg minθ
g(β,θ,yi, bi),
G(β,θ,yi) =∂2g(β,θ,yi, bi)
∂bi∂bTi
∣∣∣bi=bi
.
Tenemos que el integrando es (ademas de una constante) aproximadamenteigual a la densidad
Nq(bi, σ2G−1(β,θ,yi)).
(que es una eleccion natural para la distribucion de importancia).
Aproximacion por importance sampling
Obtenemos una observacion desde Nq(bi, σ2G−1(β,θ,yi)), tomando
z∗ ∼ N(0, I) y calculando
b∗i = bi + σG−1/2(β,θ,yi)z∗,
donde G1/2(β,θ,yi) es el factor Cholesky de G(β,θ,yi).
Repetimos el procedimiento anterior M veces (numero de muestras de
importancia).
Aproximacion por importance sampling
La aproximacion importance sampling de la log-verosimilitud marginal estadada por
`IS(β,θ, σ2) = −1
2
N log(2πσ2) + n log |D|+
n∑i=1
log |G(β,θ, σ2)|
+
n∑i=1
log M∑j=1
exp[−g(β,θ,yi, b∗ij)/2σ
2 + ‖z∗j‖2/2]/M.
En este caso no es posible obtener expresiones en forma cerrada del MLE de σ2
para β y θ fijos.
Aproximacion por cuadratura Gaussiana
Idea:
Aprovechar la estructura del integrando en nlme para transformar el problema
en la aplicacion sucesiva de reglas de cuadratura Gaussiana unidimensionales.
Aproximacion por cuadratura Gaussiana
Sean z∗j , wj , j = 1, . . . ,M , las abscisas y los pesos para la cuadraturaGaussiana (unidimensional) con M puntos basados en un kernel N(0, 1).
Entonces∫Rq
(2πσ2)−q/2|D|−1/2 exp−‖yi − f i(β, bi)‖2/2σ2 exp(−bTi D−1bi/2σ
2) dbi
=
∫Rq
(2π)−q/2 exp−‖yi − f i(β, σDT/2z∗)‖2/2σ2 exp(−‖z∗‖2/2) dz∗
≈M∑j1=1
· · ·M∑jq=1
exp−‖yi − f i(β, σDT/2z∗j1,...,jq )‖2/2σ2
q∏k=1
wjk
donde z∗j1,...,jq = (z∗j1 , . . . , z∗jq )T .
Aproximacion por cuadratura Gaussiana
Luego, la aproximacion para la funcion de log-verosimilitud usando cuadraturaGaussiana esta dada por
`GQ(β,θ, σ2) = −N2
log(2πσ2)
+
n∑i=1
log M∑j
exp(−‖yi − f i(β, σDT/2z∗j)‖2/2σ2)
q∏k=1
wjk
donde j = (j1, . . . , jq)T .
Aproximacion por cuadratura Gaussiana adaptativa
Observaciones:
Cuadratura Gaussiana corresponde a una version determinista deintegracion Monte Carlo, donde las muestras de bi son generadas desdeNq(0, σ
2D).
Cuadratura Gaussiana adaptativa (AGQ) es el homologo determinista deImportance sampling.
En AGQ, la grilla de abscisas en la escala bi esta centrada en bi yG(β,θ,yi) se utiliza para escalar z∗.
Aproximacion por cuadratura Gaussiana adaptativa
La cuadratura Gaussiana adaptativa esta dada por∫Rq
(2πσ2)−q/2|D|−1/2 exp−‖yi − f i(β, bi)‖2/2σ2 exp(−bTi D−1bi/2σ2) dbi
=
∫Rq
(2π)−q/2|G(β,θ,yi)D|−1/2
× exp−g(β,θ,yi, bi + σG−1/2(β,θ,yi)z∗)/2σ2 + ‖z∗‖2/2 exp(−‖z∗‖2/2) dz∗
≈M∑j1=1
· · ·M∑jq=1
exp−g(β,θ,yi, bi + σG−1/2(β,θ,yi)z∗j1,...,jq
)/2σ2
+ ‖z∗j1,...,jq‖2/2
q∏k=1
wjk .
Aproximacion por cuadratura Gaussiana
La aproximacion de la log-verosimilitud asume la forma
`AGQ(β,θ, σ2) = −1
2
N log(2πσ2) + n log |D|+
n∑i=1
log |G(β,θ,yi)|
+n∑i=1
log M∑j
exp−g(β,θ,yi, bi + σG−1/2(β,θ,yi)z∗j)/2σ2
+ ‖z∗j‖2
q∏k=1
wjk
donde j = (j1, . . . , jq)
T .
Aproximacion por cuadratura Gaussiana adaptativa
Observaciones:
AGQ usa abscisas y pesos fijos, mientras que Importance sampling lasdetermina por medio de simulacion.
Cuando M = 1 cuadratura Gaussiana adaptativa reduce a laaproximacion Laplace (ver Sesion 9).
AGQ es exacto cuando f es lineal en bi, esto no es verdad paracuadratura Gaussiana.
Cinetica de Teofilina (Boeckmann, Sheiner y Beal, 1984)
Dosis orales de droga anti-asmatica Teofilina son suministradas a doceindivıduos, luego las concentraciones en la sangre (mg/L) son medidas en 11instantes en un periodo de 25 horas.
Time since drug administration (hr)
The
ophy
lline
con
cent
ratio
n in
ser
um (
mg/
l)
0
2
4
6
8
10
0 5 10 15 20 25
6
7
0 5 10 15 20 25
8
11
3
2
4
0
2
4
6
8
10
90
2
4
6
8
10
12
0 5 10 15 20 25
10
1
0 5 10 15 20 25
5
Cinetica de Teofilina (Pinheiro y Bates, 1995)
Modelo:
Yij =∆iKkai
Cli(kai −K)exp(−Ktij)− exp(−kaitij), (1)
donde ∆i representa la dosis inicial, kai y K son las constantes de absorcion yeliminacion, respectivamente y Cli es el Clearance, con
Cli = exp(β1 + bi1), kai = exp(β2 + bi2), K = exp(β3).
donde bi = (b1i, b2i)T ind∼ N2(0,Ψ).
Cinetica de Teofilina (Pinheiro y Bates, 1995)
Resultados de estimacion:
Aproximacion β1 β2 β3 log σ2 `LME -3.22719 0.46548 -2.45464 -0.68660 -177.0237Laplace -3.22946 0.46876 -2.46432 -0.68658 -176.9995Imp. sampling1000 -3.22682 0.47614 -2.45851 -0.68747 -177.7689Gaussiana5 -3.30411 0.50046 -2.48743 -0.48395 -182.4680Gaussiana10 -3.23814 0.59525 -2.46872 -0.70276 -176.1008Gaussiana100 -3.22684 0.47947 -2.45893 -0.68539 -177.7293Gaussiana Adap.5 -3.22503 0.47566 -2.45788 -0.68677 -177.7499Gaussiana Adap.10 -3.22705 0.47377 -2.45942 -0.68533 -177.7473
Cinetica de Teofilina (Pinheiro y Bates, 1995)
Numero de evaluaciones funcionales hasta convergencia:
Aproximacion Evaluaciones funcionalesLME 1.512Laplace 7.683Gaussiana Adap.5 30.020Gaussiana Adap.10 96.784Gaussiana5 47.700Gaussiana10 318.000Gaussiana100 10.200.000Imp. sampling1000 11.211.284
Modelo no lineal con efectos mixtos
Modelo en dos etapas:
Y i|φiind∼ Nmi(f i(zi,φi), σ
2Imi) y
φi = Aiβ + bi, biind∼ Nq(0,Ψ), (2)
para i = 1, . . . , n, con Ψ = Ψ(λ).
De este modo
p(y1, . . . ,yn) =n∏i=1
∫Rq
p(yi|bi;β, σ2)p(bi;θ, σ
2) dbi
Modelo no lineal con efectos mixtos
El modelo en (2) corresponde a un problema de datos incompletos, con
Y com = (Y T , bT )T ,
donde Y = (Y T1 , . . . ,Y
Tn )T y b = (bT1 , . . . , b
Tn )T representan los datos
observados y perdidos, respectivamente.
Se define la funcion
Q(θ|θ) = E`c(θ;Y com)|Y , θ =
∫`c(θ|Y com)p(b|y; θ) db. (3)
Modelo no lineal con efectos mixtos
La parte relevante de la log-verosimilitud de datos completos asume la forma
`c(θ;Y com) = −N2
log σ2 − 1
2σ2
n∑i=1
‖Y i − f i(zi,φi)‖2
− n
2log |Ψ| − 1
2
n∑i=1
(φi −Aiβ)TΨ−1(φi −Aiβ)
Note que:
La esperanza condicional requerida para el algoritmo EM en el modelo nlme es
intratable.
Algoritmos EM en nlme
Examinamos las siguientes versiones de algoritmos EM para nlme:
Monte Carlo EM (Walker, 1996).
Importance sampling y EM con cuadratura Gaussiana (Wang, 2007).
SAEM (Aproximacion Estocastica EM) por Kuhn y Lavielle (2005).
Monte Carlo EM (Walker, 1996)
Debido a la dificultad para evaluar la funcion Q(θ|θ) en (3), Walker (1996)propone:
Diferenciar bajo el signo de la integral, y
Aproximar las esperanzas necesarias usando Monte Carlo.
De este modo, el MLE esta dado por
E ∂
∂θ`c(θ|Y com)|Y ,θ
= 0.
Monte Carlo EM (Walker, 1996)
En nuestro caso
∂`c(θ|Y com)
∂βT=
n∑i=1
ATi Ψ−1(φi −Aiβ),
∂`c(θ|Y com)
∂ vechT Ψ=
1
2Ψ−1
n∑i=1
(φi −Aiβ)(φi −Aiβ)T − nΨ
Ψ−1,
∂`c(θ|Y com)
∂σ2= − N
2σ2+
1
2σ4
n∑i=1
‖Y i − f i(zi,φi)‖2.
Monte Carlo EM (Walker, 1996)
De este modo los MLE esta dados por
β =( n∑i=1
ATi Ψ−1Ai
)−1
ATi Ψ−1 E(φi|Y ,θ
′),
Ψ =1
n
n∑i=1
E(φi −Aiβ)(φi −Aiβ)T |Y ,θ′,
σ2 =1
N
n∑i=1
E‖Y i − f i(zi,φi)‖2|Y ,θ′.
Monte Carlo EM (Walker, 1996)
Sea φi = E(φi|Y ,θ′), Φi = Cov(φi|Y ,θ′), f i = E(f i(φi)|Y ,θ′) yΩi = Cov(f i(φi)|Y ,θ′). Entonces
β =( n∑i=1
ATi Ψ−1Ai
)−1
ATi Ψ−1φi,
Ψ =1
n
n∑i=1
(φi −Aiβ)(φi −Aiβ)T + Φi,
σ2 =1
N
n∑i=1
‖Y i − f i‖2 + tr(Ωi).
Monte Carlo EM (Walker, 1996)
Note que es requerido el calculo, de esperanzas como
φi =
∫φip(yi|φi;β, σ2)p(φi;θ, σ
2) dφi∫p(yi|φi;β, σ2)p(φi;θ, σ
2) dφi.
Para implementar Monte Carlo, considere T grande y tome
b(1), . . . , b(T ) iid∼ N(0,Ψ),
calcule φ(k) = Aiβ + b(k), k = 1, . . . , T , y finalmente
φi =
∑Tk=1 φ
(k)p(yi|φ(k);β, σ2)∑Tk=1 p(yi|φ
(k);β, σ2).
Monte Carlo EM (Walker, 1996)
Calculamos de manera analoga
Φi =
∑Tk=1 φ
(k)φ(k)T p(yi|φ(k);β, σ2)∑Tk=1 p(yi|φ
(k);β, σ2),
f i =
∑Tk=1 f(φ(k))p(yi|φ(k);β, σ2)∑T
k=1 p(yi|φ(k);β, σ2)
,
Ωi =
∑Tk=1 f(φ(k))fT (φ(k))p(yi|φ(k);β, σ2)∑T
k=1 p(yi|φ(k);β, σ2)
,
tal que Φi = Φi − φiφT
i y Ωi = Ωi − f ifT
i
Importance sampling (Wang, 2007)
El paso E del algoritmo EM requiere el calculo de
E(U(b)|Y ,θ′) =
∫U(Y , b)p(b|Y ,θ′) db ≈ 1
T
T∑k=1
U(Y , b(k))
con b(1), . . . b(T ) desde p(b|Y ,θ′).
Wang (2007) propone hacer importance sampling desde una mezcla λ(b) de
p(b) y N(b, (H + cI)−1) para c ≥ 0 una constante pequena,
λ(b) = γ0 p(b) + (1− γ0)N(b− b, (H + cI)−1), (0 ≤ γ0 ≤ 1).
Importance sampling (Wang, 2007)
De este modo Wang (2007), sugiere aproximar
E(U(b)|Y ,θ′) =
∫U(Y , b)p(Y |b,θ′)p(b;θ′) db∫
p(Y |b,θ′)p(b;θ′) db,
usando la razon de dos aproximaciones MC via importance sampling desdeλ(b), como
E(U(b)|Y ,θ′) ≈∑Tk=1 wkU(Y , b(k))p(Y |b(k),θ′)∑T
k=1 wkwkp(Y |b(k),θ′)
,
dondePb = Ψ1/2z = γ0 = 1− Pb = b+ (H + cI)−1z
con z ∼ N(0, I) y w = p(b;θ′)/λ(b).
Importance sampling (Wang, 2007)
Observaciones:
Para γ0 = 1, el algoritmo de Wang (2007) reduce al procedimientopropuesto por Walker (1996).
Cuando q ≤ 3, Wang (2007) sugiere utilizar cuadratura Gaussiana para laetapa E del algoritmo EM.
Algoritmo SAEM (Kuhn y Lavielle, 2005)
Cuando la log-verosimilitud de datos completos pertence a la familiaexponencial, esto es,
p(y,φ;θ) = exp−Ψ(θ) + 〈S(y,φ),Φ(θ)〉.
Delyon et al. (1999) propusieron:
Aproximar la etapa E del algoritmo EM mediante dos etapas:
Etapa de Simulacion.
Etapa de Aproximacion Estocastica.
Algoritmo SAEM (Kuhn y Lavielle, 2005)
El algoritmo SAEM (Delyon et al., 1999) esta dado por:
Etapa de simulacion: tomar φ(k+1) desde la distribucion condicional
p(φ|y; θ(k)
).
Etapa de aproximacion estocastica: actualizar sk, como
sk+1 = sk + γk(S(y;φ(k+1))− sk)
Etapa de maximizacion: actualizar θ(k)
como
θ(k+1)
= arg maxθ
`c(θ;Y com)
Algoritmo SAEM (Kuhn y Lavielle, 2005)
Observaciones:
Cuando el paso de simulacion no puede ser realizado directamente Kuhny Lavielle (2004) propusieron usar un procedimiento MCMC.
Delyon et al. (1999) y Kuhn y Lavielle (2004) mostraron las propiedadesde convergencia del algoritmo SAEM.
Algoritmo SAEM (Kuhn y Lavielle, 2005)
El algoritmo SAEM obtiene los MLE en el nlme mediante aproximar
β =( n∑i=1
ATi Ψ−1Ai
)−1
ATi Ψ−1φi,
Ψ =1
n
n∑i=1
E(φi −Aiβ)(φi −Aiβ)T |Y ,θ′,
σ2 =1
N
n∑i=1
E‖Y i − f i(zi,φi)‖2|Y ,θ′.
donde φi = Eφi|Y ,θ′.
Algoritmo SAEM (Kuhn y Lavielle, 2005)
Etapa de simulacion: tomar φ(k+1) desde la distribucion condicional
p(φ|y; θ(k)
).
Aproximacion estocastica:
s(k)1,i = s
(k−1)1,i + γk(φ
(k)i − s
(k−1)1,i ),
S(k)2,i = S
(k−1)2,i + γk(φ(k)
i −Aiβ(k)
)(φ(k)i −Aiβ
(k))T − S(k−1)
2,i ),
s(k)3,i = s
(k−1)3,i + γk‖Y i − f i(zi,φ
(k)i )‖2 − s(k−1)
3,i ),
Estimacion de la log-verosimilitud
La log-verosimilitud marginal asume la forma
`o(θ) =
∫p(y,φ;θ) dφ =
∫p(y|φ;θ)p(φ;θ) dφ,
esta integral puede ser aproximada usando importance sampling como:
o(θ) =
1
M
M∑m=1
p(y|φm;θ)p(φm;θ)
p(φm;θ)
donde φ1, . . . ,φM son tomados desde p(φ;θ). La eleccion optima es la
distribucion condicional de φ|Y . Sin embargo, en la practica se utiliza p(φ).
Aproximacion del error estandar
Se aproximar la matriz de informacion de Fisher usando el principio deinformacion perdida de Louis (1982).
En cuyo caso ¨o(θ) se aproxima por la secuencia Hkk≥0 definida como
gk = gk−1 + δk(U(θ)− gk−1
)Jk = Jk−1 + δk
(∂2 log p(y, b(k); θ(k)
)
∂θ∂θT+U(θ)UT (θ)− Jk−1
)Hk = Jk − gkg
Tk ,
donde U(θ) = ∂ log p(y, b; θ(k)
)/∂θ.
Cinetica de Teofilina (Boeckmann, Sheiner y Beal, 1984)
Dosis orales de droga anti-asmatica Teofilina son suministradas a doceindivıduos, luego las concentraciones en la sangre (mg/L) son medidas en 11instantes en un periodo de 25 horas.
Time since drug administration (hr)
The
ophy
lline
con
cent
ratio
n in
ser
um (
mg/
l)
0
2
4
6
8
10
0 5 10 15 20 25
6
7
0 5 10 15 20 25
8
11
3
2
4
0
2
4
6
8
10
90
2
4
6
8
10
12
0 5 10 15 20 25
10
1
0 5 10 15 20 25
5
Cinetica de Teofilina
Modelo:
Yij =∆iKkai
Cli(kai −K)exp(−Ktij)− exp(−kaitij), (4)
donde ∆i representa la dosis inicial, kai y K son las constantes de absorcion yeliminacion, respectivamente y Cli es el Clearance, con
Cli = exp(β1 + bi1), kai = exp(β2 + bi2), K = exp(β3).
donde bi = (b1i, b2i)T ind∼ N2(0,Ψ).
Cinetica de Teofilina
Resultados de estimacion:
Procedimiento β1 β2 β3 σ2 ψ11 ψ12 ψ22
FOCE -3.29 0.89 -2.57 0.49 0.03 0.003 0.68(0.07) (0.12) (0.05) (0.07) (0.01) (0.05) (0.33)
Laplace -3.23 0.47 -2.46 0.50 0.03 0.001 0.43(0.06) (0.20) (0.05) (0.07) (0.01) (0.05) (0.20)
MCEM -3.22 0.48 -2.46 0.50 0.03 -0.001 0.44(0.06) (0.21) (0.05) (0.07) (0.01) (0.03) (0.20)
GQEM -3.23 0.49 -2.46 0.50 0.03 -0.001 0.42(0.05) (0.15) (0.05) (0.07) (0.01) (0.03) (0.20)
SAEM -3.22 0.47 -2.45 0.50 0.03 0.000 0.44(0.05) (0.20) (0.01) (0.07) (0.01) (0.00) (0.23)
Recommended