Upload
jaime-coyla
View
86
Download
5
Embed Size (px)
Citation preview
Introduccin
GLM para data binaria
GLM para conteos
Modelos Aditivos Generalizados
Anlisis de datos Categricos
Introduccin a los Modelos Lineales Generalizados
Ms Carlos Lpez de Castilla Vsquez
Universidad Nacional Agraria La Molina
2014-0
Ms Carlos Lpez de Castilla Vsquez Anlisis de datos Categricos
Introduccin
GLM para data binaria
GLM para conteos
Modelos Aditivos Generalizados
Introduccin
Modelo Lineal Generalizado
Tipo de anlisis segn el GLM
Devianza
Introduccin a los Modelos Lineales Generalizados
En los captulos 2 y 3 se discutieron mtodos para analizar
tablas de dos vas.
Sin embargo, muchos estudios incluyen ms de dos variables
explicativas algunas continuas y otras categricas.
El objetivo es describir los efectos de las variables explicativas
sobre la variable respuesta.
Un buen modelo debe evaluar los efectos de las variables
explicativas, incluir las interacciones relevantes y porporcionar
estimaciones suavizadas para la variable respuesta.
Ms Carlos Lpez de Castilla Vsquez Anlisis de datos Categricos
Introduccin
GLM para data binaria
GLM para conteos
Modelos Aditivos Generalizados
Introduccin
Modelo Lineal Generalizado
Tipo de anlisis segn el GLM
Devianza
Introduccin a los Modelos Lineales Generalizados
En este captulo se introduce la familia de Modelos Lineales
Generalizados.
Esta familia incluye los modelos ms importantes para una
variable respuesta categrica, as como los modelos estndar
que consideran una variable respuesta continua.
Nelder y Wedderburn (1972) introducen la familia de GLM's
(Generalized Linear Models).
Otra buena referencia es Annette J. Dobson (2002) An
introduction to Generalized Linear Models.
Ms Carlos Lpez de Castilla Vsquez Anlisis de datos Categricos
Introduccin
GLM para data binaria
GLM para conteos
Modelos Aditivos Generalizados
Introduccin
Modelo Lineal Generalizado
Tipo de anlisis segn el GLM
Devianza
Modelo Lineal Generalizado (GLM)
Un Modelo Lineal Generalizado (GLM) se especica a partir de
tres componentes.
Un componente aleatorio que identica la variable respuesta Yy su distribucin de probabilidad.
Un componente sistemtico que identica las variables
explicativas usadas en una funcin predictor lineal.
Una funcin de enlace que especica la funcin del E (Y ) quehace que el modelo sea igual al componente sistemtico.
Ms Carlos Lpez de Castilla Vsquez Anlisis de datos Categricos
Introduccin
GLM para data binaria
GLM para conteos
Modelos Aditivos Generalizados
Introduccin
Modelo Lineal Generalizado
Tipo de anlisis segn el GLM
Devianza
Componentes de un GLM
El componente aleatorio consiste de una variable respuesta Ycon observaciones independientes (y1
, , yN) a partir de unadistribucin que pertenece a una familia exponencial natural.
Esta familia tiene distribucin de probabilidad o densidad de la
forma:
f (yi ; i ) = a (i ) b (yi ) exp {yiQ (i )}El valor del parmetro i puede variar para i = 1, ,Ndependiendo de los valores de las variables explicativas.
El trmino Q () es llamado el parmetro natural.
Ms Carlos Lpez de Castilla Vsquez Anlisis de datos Categricos
Introduccin
GLM para data binaria
GLM para conteos
Modelos Aditivos Generalizados
Introduccin
Modelo Lineal Generalizado
Tipo de anlisis segn el GLM
Devianza
Componentes de un GLM
El componente sistemtico relaciona un vector (1
, , N)con las variables explicativas a travs de un modelo lineal.
Sea xij que denota el valor del predictor j para el sujeto i ,entonces:
i =
pj=1
jxij i = 1, ,N
Esta combinacin lineal de variables explicativas es llamada el
predictor lineal.
Ms Carlos Lpez de Castilla Vsquez Anlisis de datos Categricos
Introduccin
GLM para data binaria
GLM para conteos
Modelos Aditivos Generalizados
Introduccin
Modelo Lineal Generalizado
Tipo de anlisis segn el GLM
Devianza
Componentes de un GLM
Cuando xij = 1 para todo i el coeciente j es llamadointercepto y es denotado por .
El tercer componente es la funcin de enlace que conecta los
componentes sistemtico y aleatorio.
La funcin de enlace g es montona, diferenciable y enlazai = E (Yi ) con las variables explicativas a travs de:
g (i ) =
pj=1
jxij i = 1, ,N
Ms Carlos Lpez de Castilla Vsquez Anlisis de datos Categricos
Introduccin
GLM para data binaria
GLM para conteos
Modelos Aditivos Generalizados
Introduccin
Modelo Lineal Generalizado
Tipo de anlisis segn el GLM
Devianza
Componentes de un GLM
La funcin de enlace: g () = , es llamada enlace identidad.
La funcin de enlace que transforma la media hacia el
parmetro natural es llamado enlace cannico, es decir:
g (i ) = Q (i ) =j
jxij
En resumen, un GLM es un modelo lineal para el valor
esperado de una variable respuesta que tiene una distribucin
que pertenece a una familia exponencial natural.
Ms Carlos Lpez de Castilla Vsquez Anlisis de datos Categricos
Introduccin
GLM para data binaria
GLM para conteos
Modelos Aditivos Generalizados
Introduccin
Modelo Lineal Generalizado
Tipo de anlisis segn el GLM
Devianza
Modelo logit binomial
Muchas variables respuesta son binarias ya que representan
xitos o fracasos.
La distribucin de Bernoulli es un caso especial de la
distribucin binomal con n = 1.
La funcin de probabilidad es:
f (y ;pi) = piy (1 pi)1y = (1 pi) exp{y log
pi
1 pi}y pertenece a una familia exponencial natural.
Ms Carlos Lpez de Castilla Vsquez Anlisis de datos Categricos
Introduccin
GLM para data binaria
GLM para conteos
Modelos Aditivos Generalizados
Introduccin
Modelo Lineal Generalizado
Tipo de anlisis segn el GLM
Devianza
Modelo logit binomial
Identicando:
a (pi) = 1 pi b (y) = 1 Q (pi) = log pi1 piEl parmetro natural es el logaritmo del odds para y = 1, locual es llamado logit de pi y representa el enlace cannico.
Los GLM que usan el enlace logit son usualmente llamados
modelos logit.
Ms Carlos Lpez de Castilla Vsquez Anlisis de datos Categricos
Introduccin
GLM para data binaria
GLM para conteos
Modelos Aditivos Generalizados
Introduccin
Modelo Lineal Generalizado
Tipo de anlisis segn el GLM
Devianza
Modelo loglineal de Poisson
La distribucin de Poisson suele utilizarse para modelar
conteos.
Sea Y la variable aleatoria que representa los conteos tal queE (Y ) = .
La funcin de probabilidad para Y P () es:
f (y ;) =ey
y != e1
y !exp {y log}
que pertenece a una familia exponencial natural.
Ms Carlos Lpez de Castilla Vsquez Anlisis de datos Categricos
Introduccin
GLM para data binaria
GLM para conteos
Modelos Aditivos Generalizados
Introduccin
Modelo Lineal Generalizado
Tipo de anlisis segn el GLM
Devianza
Modelo loglineal de Poisson
Identicando:
a () = e b (y) = 1y ! Q () = log
La funcin de enlace cannica es = log.
El modelo usando el enlace anterior es:
logi =
pj=1
jxij i = 1, ,N
Este modelo es llamado modelo loglineal de Poisson.
Ms Carlos Lpez de Castilla Vsquez Anlisis de datos Categricos
Introduccin
GLM para data binaria
GLM para conteos
Modelos Aditivos Generalizados
Introduccin
Modelo Lineal Generalizado
Tipo de anlisis segn el GLM
Devianza
GLM para variable respuesta continua
La clase de GLM tambien incluye modelos para una variable
respuesta continua.
La distribucin normal es una familia exponencial natural que
incluye un parmetro de dispersin.
El parmetro natural para la distribucin normal es la media.
El modelo de regresin ordinario para E (Y ) es un GLM cuyavariable respuesta Y tiene distribucin normal.
Ms Carlos Lpez de Castilla Vsquez Anlisis de datos Categricos
Introduccin
GLM para data binaria
GLM para conteos
Modelos Aditivos Generalizados
Introduccin
Modelo Lineal Generalizado
Tipo de anlisis segn el GLM
Devianza
Tipo de anlisis segn el GLM
Tabla 1 : Tipo de anlisis segn GLM
Componente Componente
aleatorio Enlace sistemtico Modelo
Normal Identidad Continuo Regresin
Normal Identidad Categrico ANVA
Normal Identidad Mixto ANCOVA
Binomial logit Mixto Logstico
Poisson log Mixto Loglineal
Multinomial logit Mixto Respuesta multinomial
Ms Carlos Lpez de Castilla Vsquez Anlisis de datos Categricos
Introduccin
GLM para data binaria
GLM para conteos
Modelos Aditivos Generalizados
Introduccin
Modelo Lineal Generalizado
Tipo de anlisis segn el GLM
Devianza
Devianza
La devianza de un GLM de Poisson o Binomial se dene por:
2 [L (u; y) L (y; y)]
y corresponde a la estadstica de razn de verosimilitud para
comparar un modelo particular con el modelo saturado.
La devianza tiene distribucin asinttica chi-cuadrado con
N p grados de libertad.Los grados de libertad corresponden a la diferencia entre el
nmero de parmetros en el modelo saturado y en el modelo a
comparar.
Ms Carlos Lpez de Castilla Vsquez Anlisis de datos Categricos
Introduccin
GLM para data binaria
GLM para conteos
Modelos Aditivos Generalizados
Introduccin
Modelo Lineal Generalizado
Tipo de anlisis segn el GLM
Devianza
Ventajas de la formulacin GLM
Los GLM proporcionan una teora unicada de modelamiento
que incorpora los modelos ms importantes para variables
discretas y continuas.
La razn de restringir los GLM hacia las distribuciones de
familia exponencial es que pueda aplicarse el mismo algoritmo
para toda la familia sea cual sea la funcin de enlace.
Existen muchos programas que estiman los GLM: R, Minitab,
SPLUS, etc.
Ms Carlos Lpez de Castilla Vsquez Anlisis de datos Categricos
Introduccin
GLM para data binaria
GLM para conteos
Modelos Aditivos Generalizados
Modelo lineal de probabilidad
Modelo de regresin logstico
GLM binomial para tablas 22Funcin de enlace probit
GLM para data binaria
Sea Y una variable respuesta binaria cuyos posibles resultadosson denotados por 0 y 1.
La media E (Y ) = Pr (Y = 1) se denota por pi (x) dondex = (x1
, , xp).La varianza de Y es:
Var (Y ) = pi (x) (1 pi (x))
Por simplicidad se usa solo una variable explicativa.
Ms Carlos Lpez de Castilla Vsquez Anlisis de datos Categricos
Introduccin
GLM para data binaria
GLM para conteos
Modelos Aditivos Generalizados
Modelo lineal de probabilidad
Modelo de regresin logstico
GLM binomial para tablas 22Funcin de enlace probit
Modelo lineal de probabilidad
Para una variable respuesta binaria, el modelo de regresin:
pi (x) = + x
es llamado un modelo lineal de probabilidad.
Se trata de un GLM con componente aleatorio binomial y
funcin de enlace identidad.
El modelo anterior tiene el inconveniente de considerar la
posibilidad que pi (x) se encuentre fuera del intervalo (0,1).
Ms Carlos Lpez de Castilla Vsquez Anlisis de datos Categricos
Introduccin
GLM para data binaria
GLM para conteos
Modelos Aditivos Generalizados
Modelo lineal de probabilidad
Modelo de regresin logstico
GLM binomial para tablas 22Funcin de enlace probit
Ejemplo: Ronquidos y enfermedades del corazn
La siguiente tabla muestra los resultados obtenidos en un
estudio sobre el nivel de ronquido como factor de riesgo para
las enfermedades del corazn.
Tabla 2 : Relacin entre los ronquidos y las enfermedades del corazn
Enfermedad del corazn Proporcin
Ronquidos Si No Si
Nunca 24 1355 0.017
Ocasionalmente 35 603 0.055
Casi siempre 21 192 0.099
Siempre 30 224 0.118
Ms Carlos Lpez de Castilla Vsquez Anlisis de datos Categricos
Introduccin
GLM para data binaria
GLM para conteos
Modelos Aditivos Generalizados
Modelo lineal de probabilidad
Modelo de regresin logstico
GLM binomial para tablas 22Funcin de enlace probit
Ejemplo: Ronquidos y enfermedades del corazn
El modelo considera que la probabilidad de tener enfermedades
del corazn se encuentra relacionada lineamente con el nivel de
ronquido x .
Se consideran las las de la tabla como muestras binomiales
independientes.
No existe una eleccin obvia de los scores para las categoras
de x , en este ejemplo se usa (0, 2, 4, 5).
Usando R se obtiene:
pi (x) = 0,0169+ 0,0200x
Ms Carlos Lpez de Castilla Vsquez Anlisis de datos Categricos
Introduccin
GLM para data binaria
GLM para conteos
Modelos Aditivos Generalizados
Modelo lineal de probabilidad
Modelo de regresin logstico
GLM binomial para tablas 22Funcin de enlace probit
Ejemplo: Ronquidos y enfermedades del corazn
Modelo lineal
> ronquido prop modelo1 |t|)
(Intercept) 0.0168723 0.0011341 14.88 0.004488 **
ronquido 0.0200380 0.0005094 39.33 0.000646 ***
Ms Carlos Lpez de Castilla Vsquez Anlisis de datos Categricos
Introduccin
GLM para data binaria
GLM para conteos
Modelos Aditivos Generalizados
Modelo lineal de probabilidad
Modelo de regresin logstico
GLM binomial para tablas 22Funcin de enlace probit
Modelo de regresin logstico
Por lo general la data binaria presenta una relacion no lineal
montona entre pi (x) y x .
Un cambio en x usualmente causa un menor impacto cuandopi (x) se encuentra cerca de 0 o 1 que cuando se encuentracerca de 0.5.
Las curvas en forma de S son tpicas. La ms importante
corresponde al modelo de regresin logstico:
pi (x) =exp { + x}1+ exp { + x}
Ms Carlos Lpez de Castilla Vsquez Anlisis de datos Categricos
Introduccin
GLM para data binaria
GLM para conteos
Modelos Aditivos Generalizados
Modelo lineal de probabilidad
Modelo de regresin logstico
GLM binomial para tablas 22Funcin de enlace probit
Modelo de regresin logstico
Cuando x , pi (x) 0 cuando < 0 y pi (x) 1 cuando > 0.
A partir del modelo anterior el odds es:
pi (x)
1 pi (x) = exp { + x}
Luego, el logaritmo del odds tiene relacion lineal:
log
pi (x)
1 pi (x) = + x
Ms Carlos Lpez de Castilla Vsquez Anlisis de datos Categricos
Introduccin
GLM para data binaria
GLM para conteos
Modelos Aditivos Generalizados
Modelo lineal de probabilidad
Modelo de regresin logstico
GLM binomial para tablas 22Funcin de enlace probit
Modelo de regresin logstico
La transformacion usada es el logaritmo del odds llamada logit.
El modelo de regresin logstico es un GLM con componente
aleatorio binomial y funcin de enlace logit.
Los modelos de regresin logsticos son llamados modelos logit.
El logit es el parmetro natural de la distribucin binomial,
luego el enlace logit es su enlace cannico.
Como pi (x) se encuentra en el intervalo (0,1) entonces el logitpuede ser cualquier nmero real.
Ms Carlos Lpez de Castilla Vsquez Anlisis de datos Categricos
Introduccin
GLM para data binaria
GLM para conteos
Modelos Aditivos Generalizados
Modelo lineal de probabilidad
Modelo de regresin logstico
GLM binomial para tablas 22Funcin de enlace probit
Modelo de regresin logstico
Los nmeros reales son el rango para el predictor lineal, como
+ x , que forma el componente sistemtico de un GLM.
Luego, este modelo no tiene el problema estructural que se
mencion en el modelo lineal para pi (x).
Para la tabla 1, R reporta los siguientes resultados:
logit [pi (x)] = 3,8663+ 0,3973x
El valor positivo de reeja el incremento en la incidencia deenfermedades al corazn para niveles mayores de ronquido.
Ms Carlos Lpez de Castilla Vsquez Anlisis de datos Categricos
Introduccin
GLM para data binaria
GLM para conteos
Modelos Aditivos Generalizados
Modelo lineal de probabilidad
Modelo de regresin logstico
GLM binomial para tablas 22Funcin de enlace probit
Modelo de regresin logstico
Funcin de enlace logit
> si no modelo2 |z|)
(Intercept) -3.86625 0.16621 -23.261 < 2e-16 ***
ronquido 0.39734 0.05001 7.945 1.94e-15 ***
Ms Carlos Lpez de Castilla Vsquez Anlisis de datos Categricos
Introduccin
GLM para data binaria
GLM para conteos
Modelos Aditivos Generalizados
Modelo lineal de probabilidad
Modelo de regresin logstico
GLM binomial para tablas 22Funcin de enlace probit
GLM binomial para tablas 22
Suponga que para alguna funcin de enlace:
enlace [pi (x)] = + x
Se describe el efecto de X por:
= enlace [pi (1)] enlace [pi (0)]
Para el enlace identidad:
= pi (1) pi (0)
Ms Carlos Lpez de Castilla Vsquez Anlisis de datos Categricos
Introduccin
GLM para data binaria
GLM para conteos
Modelos Aditivos Generalizados
Modelo lineal de probabilidad
Modelo de regresin logstico
GLM binomial para tablas 22Funcin de enlace probit
GLM binomial para tablas 22
Para el enlace log:
= log [pi (1)] log [pi (0)] = log pi (1)pi (0)
= log r
Para el enlace logit:
= logit [pi (1)] logit [pi (0)] = logpi(1)1pi(1)pi(0)1pi(0)
= log
Ms Carlos Lpez de Castilla Vsquez Anlisis de datos Categricos
Introduccin
GLM para data binaria
GLM para conteos
Modelos Aditivos Generalizados
Modelo lineal de probabilidad
Modelo de regresin logstico
GLM binomial para tablas 22Funcin de enlace probit
Funcin de enlace probit
Una curva de regresin montona por lo general tiene la forma
de una funcin de distribucin acumulada de una variable
aleatoria continua.
Lo anterior sugiere un modelo para una variable respuesta
binaria de la forma:
pi (x) = F (x)
para alguna funcin de distribucin acumulada F .
Sea la funcin de distribucin acumulada estndar de unafamilia de distribuciones.
Ms Carlos Lpez de Castilla Vsquez Anlisis de datos Categricos
Introduccin
GLM para data binaria
GLM para conteos
Modelos Aditivos Generalizados
Modelo lineal de probabilidad
Modelo de regresin logstico
GLM binomial para tablas 22Funcin de enlace probit
Funcin de enlace probit
Se propone el modelo:
pi (x) = ( + x)
Si es estrictamente creciente entonces:
1 (pi (x)) = + x
es decir, la funcin de enlace para el GLM es 1 .Si es la funcin de distribucin acumulada de la distribucinnormal estndar el model anterior es llamado modelo probit.
Ms Carlos Lpez de Castilla Vsquez Anlisis de datos Categricos
Introduccin
GLM para data binaria
GLM para conteos
Modelos Aditivos Generalizados
Modelo loglineal de Poisson
Sobredispersin para un GLM de Poisson
GLM con distribucin binomial negativa
GLM de Poisson para independencia
Modelo loglineal de Poisson
La distribucin de Poisson tiene media > 0.
El logaritmo de la media es el parmetro natural de la
distribucin y corresponde al enlace cannico para su GLM.
El modelo loglineal de Poisson con variable explicativa x es:
log = + x
La media satisface la siguiente relacin exponencial:
= exp { + x} = e(e)x
Ms Carlos Lpez de Castilla Vsquez Anlisis de datos Categricos
Introduccin
GLM para data binaria
GLM para conteos
Modelos Aditivos Generalizados
Modelo loglineal de Poisson
Sobredispersin para un GLM de Poisson
GLM con distribucin binomial negativa
GLM de Poisson para independencia
Ejemplo: Apareamiento del cangrejo
Se presenta un GLM de Poisson para un estudio sobre el
apareamiento del cangrejo de herradura.
Cada cangrejo hembra tiene un cangrejo macho residente en
su nido.
El estudio investig los factores que hacen que un cangrejo
hembra tenga otros machos no residentes llamados satlites.
Las posibles variables explicativas son el color, la condicin de
la columna vertebral, el peso y el ancho del caparazn del
cangrejo hembra.
Ms Carlos Lpez de Castilla Vsquez Anlisis de datos Categricos
Introduccin
GLM para data binaria
GLM para conteos
Modelos Aditivos Generalizados
Modelo loglineal de Poisson
Sobredispersin para un GLM de Poisson
GLM con distribucin binomial negativa
GLM de Poisson para independencia
Ejemplo: Apareamiento del cangrejo
La variable respuesta es el nmero de satlites de un cangrejo
hembra.
Sea el nmero esperado de satlites de un cangrejo hembray x el ancho de su caparazn. Usando R:
log = 3,3048+ 0,1641x
La gura 1 muestra que el E(Y ) tiene una relacinaproximadamente lineal con el ancho del caparazn.
Usando R:
= 11,5255+ 0,5493x
Ms Carlos Lpez de Castilla Vsquez Anlisis de datos Categricos
Introduccin
GLM para data binaria
GLM para conteos
Modelos Aditivos Generalizados
Modelo loglineal de Poisson
Sobredispersin para un GLM de Poisson
GLM con distribucin binomial negativa
GLM de Poisson para independencia
Ejemplo: Apareamiento del cangrejo
Funcin de enlace log
> modelo3 |z|)
(Intercept) -3.30476 0.54224 -6.095 1.1e-09 ***
Ancho 0.16405 0.01997 8.216 < 2e-16 ***
Funcin de enlace identidad
> modelo4 |z|)
(Intercept) -11.52547 0.67767 -17.01
Introduccin
GLM para data binaria
GLM para conteos
Modelos Aditivos Generalizados
Modelo loglineal de Poisson
Sobredispersin para un GLM de Poisson
GLM con distribucin binomial negativa
GLM de Poisson para independencia
Ejemplo: Apareamiento del cangrejo
Figura 1 : Apareamiento del cangrejo de herradura
Ms Carlos Lpez de Castilla Vsquez Anlisis de datos Categricos
Introduccin
GLM para data binaria
GLM para conteos
Modelos Aditivos Generalizados
Modelo loglineal de Poisson
Sobredispersin para un GLM de Poisson
GLM con distribucin binomial negativa
GLM de Poisson para independencia
Sobredispersin para un GLM de Poisson
La tabla 3 muestra la media y varianza muestral para el
nmero de sattiles en cada categora considerada para el
ancho del caparazn.
Se puede observar que las varianzas son mayores que las
medias.
Esta variabilidad que es mayor que la estimada por el
componente aleatorio del GLM reeja sobredispesin.
Una causa para la sobredispersin es la heterogeneidad en los
sujetos.
Ms Carlos Lpez de Castilla Vsquez Anlisis de datos Categricos
Introduccin
GLM para data binaria
GLM para conteos
Modelos Aditivos Generalizados
Modelo loglineal de Poisson
Sobredispersin para un GLM de Poisson
GLM con distribucin binomial negativa
GLM de Poisson para independencia
Sobredispersin para un GLM de Poisson
Tabla 3 : Media y varianza muestral para el nmero de sattiles
Ancho (cm) Casos Media Varianza
< 23.25 14 1.00 2.77
23.25 - 24.25 14 1.43 8.88
24.25 - 25.25 28 2.39 6.54
25.25 - 26.25 39 2.69 11.38
26.25 - 27.25 22 2.86 6.88
27.25 - 28.25 24 3.87 8.81
28.25 - 29.25 18 3.94 16.88
> 29.25 14 5.14 8.29
Ms Carlos Lpez de Castilla Vsquez Anlisis de datos Categricos
Introduccin
GLM para data binaria
GLM para conteos
Modelos Aditivos Generalizados
Modelo loglineal de Poisson
Sobredispersin para un GLM de Poisson
GLM con distribucin binomial negativa
GLM de Poisson para independencia
Sobredispersin para un GLM de Poisson
La sobredispersin no representa un problema en una regresin
ordinaria con distribucin normal para Y debido a que lavarianza es un parmetro separado.
Para la distribucin binomial y Poisson, sin embargo, la
varianza es funcin de la media.
Cuando el modelo para la media es correcto pero la
distribucin no es de Poisson, los estimadores de mxima
verosimilitud son an consistentes pero sus errores estndar
son incorrectos.
Ms Carlos Lpez de Castilla Vsquez Anlisis de datos Categricos
Introduccin
GLM para data binaria
GLM para conteos
Modelos Aditivos Generalizados
Modelo loglineal de Poisson
Sobredispersin para un GLM de Poisson
GLM con distribucin binomial negativa
GLM de Poisson para independencia
GLM con distribucin binomial negativa
La distribucin binomial negativa tiene funcin de probabilidad:
f (y ; k ;) = (y + k)
(k) (y + 1)
(k
+ k
)k (1 k
+ k
)ypara y = 0, 1, 2, tal que E(Y ) = y Var(Y ) = + 2/k .El trmino k1 es llamado parmetro de dispersin.Cuando k1 0 entonces Var(Y ) y la distribucinbinomial negativa converge a la distribucin de Poisson.
Ms Carlos Lpez de Castilla Vsquez Anlisis de datos Categricos
Introduccin
GLM para data binaria
GLM para conteos
Modelos Aditivos Generalizados
Modelo loglineal de Poisson
Sobredispersin para un GLM de Poisson
GLM con distribucin binomial negativa
GLM de Poisson para independencia
GLM con distribucin binomial negativa
Usualmente k1 es desconocido y su estimacin ayuda aestudiar el grado de sobredispersin.
Para k jo la funcin de probabilidad anterior puede expresarseen la forma de una familia exponencial natural.
Un modelo con componente aleatorio con distribucin
binomial negativa es un GLM.
Por simplicidad, estos modelos consideran que el parmetro kes el mismo para todas las observaciones.
Ms Carlos Lpez de Castilla Vsquez Anlisis de datos Categricos
Introduccin
GLM para data binaria
GLM para conteos
Modelos Aditivos Generalizados
Modelo loglineal de Poisson
Sobredispersin para un GLM de Poisson
GLM con distribucin binomial negativa
GLM de Poisson para independencia
GLM con distribucin binomial negativa
As como los GLM para data binaria, para esta distribucin se
tiene disponible una variedad de funciones de enlace.
El GLM estimado para la distribucin binomial negativa
usando el enlace identidad en R es:
= 11,6329+ 0,5540x
Adems k1 = 0,8998.
Ms Carlos Lpez de Castilla Vsquez Anlisis de datos Categricos
Introduccin
GLM para data binaria
GLM para conteos
Modelos Aditivos Generalizados
Modelo loglineal de Poisson
Sobredispersin para un GLM de Poisson
GLM con distribucin binomial negativa
GLM de Poisson para independencia
GLM con distribucin binomial negativa
Funcin de enlace identidad
> library(MASS)
> modelo5 |t|)
(Intercept) -11.63290 0.98973 -11.75
Introduccin
GLM para data binaria
GLM para conteos
Modelos Aditivos Generalizados
Modelo loglineal de Poisson
Sobredispersin para un GLM de Poisson
GLM con distribucin binomial negativa
GLM de Poisson para independencia
Regresin de Poisson para tasas
Cuando los eventos de un determinado tipo se producen en
una unidad de tiempo o espacio es preferible modelar la tasa
en las que stos ocurren en lugar que el nmero de ellos.
Por ejemplo, un estudio de los homicidios ocurridos en un ao
para una muestra de ciudades se podria modelar el nmero de
homicidios por ao divididos por el tamao de la poblacin.
El modelo podra describir como la tasa de homicidios depende
de variables como la tasa de desempleo, la mediana del ingreso,
el porcentaje de residentes que completan secundaria, etc.
Ms Carlos Lpez de Castilla Vsquez Anlisis de datos Categricos
Introduccin
GLM para data binaria
GLM para conteos
Modelos Aditivos Generalizados
Modelo loglineal de Poisson
Sobredispersin para un GLM de Poisson
GLM con distribucin binomial negativa
GLM de Poisson para independencia
GLM para Poisson de independencia
Suponga que una tabla tiene conteos independientes tales que
Yij P (ij = ij) donde:i
i =j
j = 1
El modelo anterior puede transformarse en un predictor lineal
usando el enlace log:
logij = + i +
j
donde = log, i = logi y j = log j .
Ms Carlos Lpez de Castilla Vsquez Anlisis de datos Categricos
Introduccin
GLM para data binaria
GLM para conteos
Modelos Aditivos Generalizados
Modelo loglineal de Poisson
Sobredispersin para un GLM de Poisson
GLM con distribucin binomial negativa
GLM de Poisson para independencia
GLM para Poisson de independencia
Como los {Yij} son independientes, el tamao de muestratotal n =
i
j Yij P
( =
i
j ij
).
Condicionados sobre n los conteos en las celdas tienendistribucinM{piij = ij/ = ij}.Adems condicionado a n, {Yi+} M{pii+ = i} y{Y+j} M{pi+j = j}.Condicionado sobre n el modelo anterior es multinomial ysatisface piij = ij = pii+pi+j que corresponde a laindependencia en una tabla de dos vas.
Ms Carlos Lpez de Castilla Vsquez Anlisis de datos Categricos
Introduccin
GLM para data binaria
GLM para conteos
Modelos Aditivos Generalizados
Modelos Aditivos Generalizados
Modelos Aditivos Generaizados (GAM)
La estructura g (i ) =
j jxij se generaliza hacia:
g (i ) =j
Sj (xij)
donde Sj () es una funcin suave no especicada del predictorj , por ejemplo el spline cbico.
Al igual que los GLM, este modelo especica una funcin para
para el componente aleatorio y una funcin de enlace g .
El modelo resultante es llamado Modelo Aditivo Generalizado
(Hastie y Tibshirani 1990)
Ms Carlos Lpez de Castilla Vsquez Anlisis de datos Categricos
IntroduccinIntroduccinModelo Lineal GeneralizadoTipo de anlisis segn el GLMDevianza
GLM para data binariaModelo lineal de probabilidadModelo de regresin logsticoGLM binomial para tablas 22Funcin de enlace probit
GLM para conteosModelo loglineal de PoissonSobredispersin para un GLM de PoissonGLM con distribucin binomial negativaGLM de Poisson para independencia
Modelos Aditivos GeneralizadosModelos Aditivos Generalizados