46

Introduccion a Los GLM

Embed Size (px)

Citation preview

  • Introduccin

    GLM para data binaria

    GLM para conteos

    Modelos Aditivos Generalizados

    Anlisis de datos Categricos

    Introduccin a los Modelos Lineales Generalizados

    Ms Carlos Lpez de Castilla Vsquez

    Universidad Nacional Agraria La Molina

    2014-0

    Ms Carlos Lpez de Castilla Vsquez Anlisis de datos Categricos

  • Introduccin

    GLM para data binaria

    GLM para conteos

    Modelos Aditivos Generalizados

    Introduccin

    Modelo Lineal Generalizado

    Tipo de anlisis segn el GLM

    Devianza

    Introduccin a los Modelos Lineales Generalizados

    En los captulos 2 y 3 se discutieron mtodos para analizar

    tablas de dos vas.

    Sin embargo, muchos estudios incluyen ms de dos variables

    explicativas algunas continuas y otras categricas.

    El objetivo es describir los efectos de las variables explicativas

    sobre la variable respuesta.

    Un buen modelo debe evaluar los efectos de las variables

    explicativas, incluir las interacciones relevantes y porporcionar

    estimaciones suavizadas para la variable respuesta.

    Ms Carlos Lpez de Castilla Vsquez Anlisis de datos Categricos

  • Introduccin

    GLM para data binaria

    GLM para conteos

    Modelos Aditivos Generalizados

    Introduccin

    Modelo Lineal Generalizado

    Tipo de anlisis segn el GLM

    Devianza

    Introduccin a los Modelos Lineales Generalizados

    En este captulo se introduce la familia de Modelos Lineales

    Generalizados.

    Esta familia incluye los modelos ms importantes para una

    variable respuesta categrica, as como los modelos estndar

    que consideran una variable respuesta continua.

    Nelder y Wedderburn (1972) introducen la familia de GLM's

    (Generalized Linear Models).

    Otra buena referencia es Annette J. Dobson (2002) An

    introduction to Generalized Linear Models.

    Ms Carlos Lpez de Castilla Vsquez Anlisis de datos Categricos

  • Introduccin

    GLM para data binaria

    GLM para conteos

    Modelos Aditivos Generalizados

    Introduccin

    Modelo Lineal Generalizado

    Tipo de anlisis segn el GLM

    Devianza

    Modelo Lineal Generalizado (GLM)

    Un Modelo Lineal Generalizado (GLM) se especica a partir de

    tres componentes.

    Un componente aleatorio que identica la variable respuesta Yy su distribucin de probabilidad.

    Un componente sistemtico que identica las variables

    explicativas usadas en una funcin predictor lineal.

    Una funcin de enlace que especica la funcin del E (Y ) quehace que el modelo sea igual al componente sistemtico.

    Ms Carlos Lpez de Castilla Vsquez Anlisis de datos Categricos

  • Introduccin

    GLM para data binaria

    GLM para conteos

    Modelos Aditivos Generalizados

    Introduccin

    Modelo Lineal Generalizado

    Tipo de anlisis segn el GLM

    Devianza

    Componentes de un GLM

    El componente aleatorio consiste de una variable respuesta Ycon observaciones independientes (y1

    , , yN) a partir de unadistribucin que pertenece a una familia exponencial natural.

    Esta familia tiene distribucin de probabilidad o densidad de la

    forma:

    f (yi ; i ) = a (i ) b (yi ) exp {yiQ (i )}El valor del parmetro i puede variar para i = 1, ,Ndependiendo de los valores de las variables explicativas.

    El trmino Q () es llamado el parmetro natural.

    Ms Carlos Lpez de Castilla Vsquez Anlisis de datos Categricos

  • Introduccin

    GLM para data binaria

    GLM para conteos

    Modelos Aditivos Generalizados

    Introduccin

    Modelo Lineal Generalizado

    Tipo de anlisis segn el GLM

    Devianza

    Componentes de un GLM

    El componente sistemtico relaciona un vector (1

    , , N)con las variables explicativas a travs de un modelo lineal.

    Sea xij que denota el valor del predictor j para el sujeto i ,entonces:

    i =

    pj=1

    jxij i = 1, ,N

    Esta combinacin lineal de variables explicativas es llamada el

    predictor lineal.

    Ms Carlos Lpez de Castilla Vsquez Anlisis de datos Categricos

  • Introduccin

    GLM para data binaria

    GLM para conteos

    Modelos Aditivos Generalizados

    Introduccin

    Modelo Lineal Generalizado

    Tipo de anlisis segn el GLM

    Devianza

    Componentes de un GLM

    Cuando xij = 1 para todo i el coeciente j es llamadointercepto y es denotado por .

    El tercer componente es la funcin de enlace que conecta los

    componentes sistemtico y aleatorio.

    La funcin de enlace g es montona, diferenciable y enlazai = E (Yi ) con las variables explicativas a travs de:

    g (i ) =

    pj=1

    jxij i = 1, ,N

    Ms Carlos Lpez de Castilla Vsquez Anlisis de datos Categricos

  • Introduccin

    GLM para data binaria

    GLM para conteos

    Modelos Aditivos Generalizados

    Introduccin

    Modelo Lineal Generalizado

    Tipo de anlisis segn el GLM

    Devianza

    Componentes de un GLM

    La funcin de enlace: g () = , es llamada enlace identidad.

    La funcin de enlace que transforma la media hacia el

    parmetro natural es llamado enlace cannico, es decir:

    g (i ) = Q (i ) =j

    jxij

    En resumen, un GLM es un modelo lineal para el valor

    esperado de una variable respuesta que tiene una distribucin

    que pertenece a una familia exponencial natural.

    Ms Carlos Lpez de Castilla Vsquez Anlisis de datos Categricos

  • Introduccin

    GLM para data binaria

    GLM para conteos

    Modelos Aditivos Generalizados

    Introduccin

    Modelo Lineal Generalizado

    Tipo de anlisis segn el GLM

    Devianza

    Modelo logit binomial

    Muchas variables respuesta son binarias ya que representan

    xitos o fracasos.

    La distribucin de Bernoulli es un caso especial de la

    distribucin binomal con n = 1.

    La funcin de probabilidad es:

    f (y ;pi) = piy (1 pi)1y = (1 pi) exp{y log

    pi

    1 pi}y pertenece a una familia exponencial natural.

    Ms Carlos Lpez de Castilla Vsquez Anlisis de datos Categricos

  • Introduccin

    GLM para data binaria

    GLM para conteos

    Modelos Aditivos Generalizados

    Introduccin

    Modelo Lineal Generalizado

    Tipo de anlisis segn el GLM

    Devianza

    Modelo logit binomial

    Identicando:

    a (pi) = 1 pi b (y) = 1 Q (pi) = log pi1 piEl parmetro natural es el logaritmo del odds para y = 1, locual es llamado logit de pi y representa el enlace cannico.

    Los GLM que usan el enlace logit son usualmente llamados

    modelos logit.

    Ms Carlos Lpez de Castilla Vsquez Anlisis de datos Categricos

  • Introduccin

    GLM para data binaria

    GLM para conteos

    Modelos Aditivos Generalizados

    Introduccin

    Modelo Lineal Generalizado

    Tipo de anlisis segn el GLM

    Devianza

    Modelo loglineal de Poisson

    La distribucin de Poisson suele utilizarse para modelar

    conteos.

    Sea Y la variable aleatoria que representa los conteos tal queE (Y ) = .

    La funcin de probabilidad para Y P () es:

    f (y ;) =ey

    y != e1

    y !exp {y log}

    que pertenece a una familia exponencial natural.

    Ms Carlos Lpez de Castilla Vsquez Anlisis de datos Categricos

  • Introduccin

    GLM para data binaria

    GLM para conteos

    Modelos Aditivos Generalizados

    Introduccin

    Modelo Lineal Generalizado

    Tipo de anlisis segn el GLM

    Devianza

    Modelo loglineal de Poisson

    Identicando:

    a () = e b (y) = 1y ! Q () = log

    La funcin de enlace cannica es = log.

    El modelo usando el enlace anterior es:

    logi =

    pj=1

    jxij i = 1, ,N

    Este modelo es llamado modelo loglineal de Poisson.

    Ms Carlos Lpez de Castilla Vsquez Anlisis de datos Categricos

  • Introduccin

    GLM para data binaria

    GLM para conteos

    Modelos Aditivos Generalizados

    Introduccin

    Modelo Lineal Generalizado

    Tipo de anlisis segn el GLM

    Devianza

    GLM para variable respuesta continua

    La clase de GLM tambien incluye modelos para una variable

    respuesta continua.

    La distribucin normal es una familia exponencial natural que

    incluye un parmetro de dispersin.

    El parmetro natural para la distribucin normal es la media.

    El modelo de regresin ordinario para E (Y ) es un GLM cuyavariable respuesta Y tiene distribucin normal.

    Ms Carlos Lpez de Castilla Vsquez Anlisis de datos Categricos

  • Introduccin

    GLM para data binaria

    GLM para conteos

    Modelos Aditivos Generalizados

    Introduccin

    Modelo Lineal Generalizado

    Tipo de anlisis segn el GLM

    Devianza

    Tipo de anlisis segn el GLM

    Tabla 1 : Tipo de anlisis segn GLM

    Componente Componente

    aleatorio Enlace sistemtico Modelo

    Normal Identidad Continuo Regresin

    Normal Identidad Categrico ANVA

    Normal Identidad Mixto ANCOVA

    Binomial logit Mixto Logstico

    Poisson log Mixto Loglineal

    Multinomial logit Mixto Respuesta multinomial

    Ms Carlos Lpez de Castilla Vsquez Anlisis de datos Categricos

  • Introduccin

    GLM para data binaria

    GLM para conteos

    Modelos Aditivos Generalizados

    Introduccin

    Modelo Lineal Generalizado

    Tipo de anlisis segn el GLM

    Devianza

    Devianza

    La devianza de un GLM de Poisson o Binomial se dene por:

    2 [L (u; y) L (y; y)]

    y corresponde a la estadstica de razn de verosimilitud para

    comparar un modelo particular con el modelo saturado.

    La devianza tiene distribucin asinttica chi-cuadrado con

    N p grados de libertad.Los grados de libertad corresponden a la diferencia entre el

    nmero de parmetros en el modelo saturado y en el modelo a

    comparar.

    Ms Carlos Lpez de Castilla Vsquez Anlisis de datos Categricos

  • Introduccin

    GLM para data binaria

    GLM para conteos

    Modelos Aditivos Generalizados

    Introduccin

    Modelo Lineal Generalizado

    Tipo de anlisis segn el GLM

    Devianza

    Ventajas de la formulacin GLM

    Los GLM proporcionan una teora unicada de modelamiento

    que incorpora los modelos ms importantes para variables

    discretas y continuas.

    La razn de restringir los GLM hacia las distribuciones de

    familia exponencial es que pueda aplicarse el mismo algoritmo

    para toda la familia sea cual sea la funcin de enlace.

    Existen muchos programas que estiman los GLM: R, Minitab,

    SPLUS, etc.

    Ms Carlos Lpez de Castilla Vsquez Anlisis de datos Categricos

  • Introduccin

    GLM para data binaria

    GLM para conteos

    Modelos Aditivos Generalizados

    Modelo lineal de probabilidad

    Modelo de regresin logstico

    GLM binomial para tablas 22Funcin de enlace probit

    GLM para data binaria

    Sea Y una variable respuesta binaria cuyos posibles resultadosson denotados por 0 y 1.

    La media E (Y ) = Pr (Y = 1) se denota por pi (x) dondex = (x1

    , , xp).La varianza de Y es:

    Var (Y ) = pi (x) (1 pi (x))

    Por simplicidad se usa solo una variable explicativa.

    Ms Carlos Lpez de Castilla Vsquez Anlisis de datos Categricos

  • Introduccin

    GLM para data binaria

    GLM para conteos

    Modelos Aditivos Generalizados

    Modelo lineal de probabilidad

    Modelo de regresin logstico

    GLM binomial para tablas 22Funcin de enlace probit

    Modelo lineal de probabilidad

    Para una variable respuesta binaria, el modelo de regresin:

    pi (x) = + x

    es llamado un modelo lineal de probabilidad.

    Se trata de un GLM con componente aleatorio binomial y

    funcin de enlace identidad.

    El modelo anterior tiene el inconveniente de considerar la

    posibilidad que pi (x) se encuentre fuera del intervalo (0,1).

    Ms Carlos Lpez de Castilla Vsquez Anlisis de datos Categricos

  • Introduccin

    GLM para data binaria

    GLM para conteos

    Modelos Aditivos Generalizados

    Modelo lineal de probabilidad

    Modelo de regresin logstico

    GLM binomial para tablas 22Funcin de enlace probit

    Ejemplo: Ronquidos y enfermedades del corazn

    La siguiente tabla muestra los resultados obtenidos en un

    estudio sobre el nivel de ronquido como factor de riesgo para

    las enfermedades del corazn.

    Tabla 2 : Relacin entre los ronquidos y las enfermedades del corazn

    Enfermedad del corazn Proporcin

    Ronquidos Si No Si

    Nunca 24 1355 0.017

    Ocasionalmente 35 603 0.055

    Casi siempre 21 192 0.099

    Siempre 30 224 0.118

    Ms Carlos Lpez de Castilla Vsquez Anlisis de datos Categricos

  • Introduccin

    GLM para data binaria

    GLM para conteos

    Modelos Aditivos Generalizados

    Modelo lineal de probabilidad

    Modelo de regresin logstico

    GLM binomial para tablas 22Funcin de enlace probit

    Ejemplo: Ronquidos y enfermedades del corazn

    El modelo considera que la probabilidad de tener enfermedades

    del corazn se encuentra relacionada lineamente con el nivel de

    ronquido x .

    Se consideran las las de la tabla como muestras binomiales

    independientes.

    No existe una eleccin obvia de los scores para las categoras

    de x , en este ejemplo se usa (0, 2, 4, 5).

    Usando R se obtiene:

    pi (x) = 0,0169+ 0,0200x

    Ms Carlos Lpez de Castilla Vsquez Anlisis de datos Categricos

  • Introduccin

    GLM para data binaria

    GLM para conteos

    Modelos Aditivos Generalizados

    Modelo lineal de probabilidad

    Modelo de regresin logstico

    GLM binomial para tablas 22Funcin de enlace probit

    Ejemplo: Ronquidos y enfermedades del corazn

    Modelo lineal

    > ronquido prop modelo1 |t|)

    (Intercept) 0.0168723 0.0011341 14.88 0.004488 **

    ronquido 0.0200380 0.0005094 39.33 0.000646 ***

    Ms Carlos Lpez de Castilla Vsquez Anlisis de datos Categricos

  • Introduccin

    GLM para data binaria

    GLM para conteos

    Modelos Aditivos Generalizados

    Modelo lineal de probabilidad

    Modelo de regresin logstico

    GLM binomial para tablas 22Funcin de enlace probit

    Modelo de regresin logstico

    Por lo general la data binaria presenta una relacion no lineal

    montona entre pi (x) y x .

    Un cambio en x usualmente causa un menor impacto cuandopi (x) se encuentra cerca de 0 o 1 que cuando se encuentracerca de 0.5.

    Las curvas en forma de S son tpicas. La ms importante

    corresponde al modelo de regresin logstico:

    pi (x) =exp { + x}1+ exp { + x}

    Ms Carlos Lpez de Castilla Vsquez Anlisis de datos Categricos

  • Introduccin

    GLM para data binaria

    GLM para conteos

    Modelos Aditivos Generalizados

    Modelo lineal de probabilidad

    Modelo de regresin logstico

    GLM binomial para tablas 22Funcin de enlace probit

    Modelo de regresin logstico

    Cuando x , pi (x) 0 cuando < 0 y pi (x) 1 cuando > 0.

    A partir del modelo anterior el odds es:

    pi (x)

    1 pi (x) = exp { + x}

    Luego, el logaritmo del odds tiene relacion lineal:

    log

    pi (x)

    1 pi (x) = + x

    Ms Carlos Lpez de Castilla Vsquez Anlisis de datos Categricos

  • Introduccin

    GLM para data binaria

    GLM para conteos

    Modelos Aditivos Generalizados

    Modelo lineal de probabilidad

    Modelo de regresin logstico

    GLM binomial para tablas 22Funcin de enlace probit

    Modelo de regresin logstico

    La transformacion usada es el logaritmo del odds llamada logit.

    El modelo de regresin logstico es un GLM con componente

    aleatorio binomial y funcin de enlace logit.

    Los modelos de regresin logsticos son llamados modelos logit.

    El logit es el parmetro natural de la distribucin binomial,

    luego el enlace logit es su enlace cannico.

    Como pi (x) se encuentra en el intervalo (0,1) entonces el logitpuede ser cualquier nmero real.

    Ms Carlos Lpez de Castilla Vsquez Anlisis de datos Categricos

  • Introduccin

    GLM para data binaria

    GLM para conteos

    Modelos Aditivos Generalizados

    Modelo lineal de probabilidad

    Modelo de regresin logstico

    GLM binomial para tablas 22Funcin de enlace probit

    Modelo de regresin logstico

    Los nmeros reales son el rango para el predictor lineal, como

    + x , que forma el componente sistemtico de un GLM.

    Luego, este modelo no tiene el problema estructural que se

    mencion en el modelo lineal para pi (x).

    Para la tabla 1, R reporta los siguientes resultados:

    logit [pi (x)] = 3,8663+ 0,3973x

    El valor positivo de reeja el incremento en la incidencia deenfermedades al corazn para niveles mayores de ronquido.

    Ms Carlos Lpez de Castilla Vsquez Anlisis de datos Categricos

  • Introduccin

    GLM para data binaria

    GLM para conteos

    Modelos Aditivos Generalizados

    Modelo lineal de probabilidad

    Modelo de regresin logstico

    GLM binomial para tablas 22Funcin de enlace probit

    Modelo de regresin logstico

    Funcin de enlace logit

    > si no modelo2 |z|)

    (Intercept) -3.86625 0.16621 -23.261 < 2e-16 ***

    ronquido 0.39734 0.05001 7.945 1.94e-15 ***

    Ms Carlos Lpez de Castilla Vsquez Anlisis de datos Categricos

  • Introduccin

    GLM para data binaria

    GLM para conteos

    Modelos Aditivos Generalizados

    Modelo lineal de probabilidad

    Modelo de regresin logstico

    GLM binomial para tablas 22Funcin de enlace probit

    GLM binomial para tablas 22

    Suponga que para alguna funcin de enlace:

    enlace [pi (x)] = + x

    Se describe el efecto de X por:

    = enlace [pi (1)] enlace [pi (0)]

    Para el enlace identidad:

    = pi (1) pi (0)

    Ms Carlos Lpez de Castilla Vsquez Anlisis de datos Categricos

  • Introduccin

    GLM para data binaria

    GLM para conteos

    Modelos Aditivos Generalizados

    Modelo lineal de probabilidad

    Modelo de regresin logstico

    GLM binomial para tablas 22Funcin de enlace probit

    GLM binomial para tablas 22

    Para el enlace log:

    = log [pi (1)] log [pi (0)] = log pi (1)pi (0)

    = log r

    Para el enlace logit:

    = logit [pi (1)] logit [pi (0)] = logpi(1)1pi(1)pi(0)1pi(0)

    = log

    Ms Carlos Lpez de Castilla Vsquez Anlisis de datos Categricos

  • Introduccin

    GLM para data binaria

    GLM para conteos

    Modelos Aditivos Generalizados

    Modelo lineal de probabilidad

    Modelo de regresin logstico

    GLM binomial para tablas 22Funcin de enlace probit

    Funcin de enlace probit

    Una curva de regresin montona por lo general tiene la forma

    de una funcin de distribucin acumulada de una variable

    aleatoria continua.

    Lo anterior sugiere un modelo para una variable respuesta

    binaria de la forma:

    pi (x) = F (x)

    para alguna funcin de distribucin acumulada F .

    Sea la funcin de distribucin acumulada estndar de unafamilia de distribuciones.

    Ms Carlos Lpez de Castilla Vsquez Anlisis de datos Categricos

  • Introduccin

    GLM para data binaria

    GLM para conteos

    Modelos Aditivos Generalizados

    Modelo lineal de probabilidad

    Modelo de regresin logstico

    GLM binomial para tablas 22Funcin de enlace probit

    Funcin de enlace probit

    Se propone el modelo:

    pi (x) = ( + x)

    Si es estrictamente creciente entonces:

    1 (pi (x)) = + x

    es decir, la funcin de enlace para el GLM es 1 .Si es la funcin de distribucin acumulada de la distribucinnormal estndar el model anterior es llamado modelo probit.

    Ms Carlos Lpez de Castilla Vsquez Anlisis de datos Categricos

  • Introduccin

    GLM para data binaria

    GLM para conteos

    Modelos Aditivos Generalizados

    Modelo loglineal de Poisson

    Sobredispersin para un GLM de Poisson

    GLM con distribucin binomial negativa

    GLM de Poisson para independencia

    Modelo loglineal de Poisson

    La distribucin de Poisson tiene media > 0.

    El logaritmo de la media es el parmetro natural de la

    distribucin y corresponde al enlace cannico para su GLM.

    El modelo loglineal de Poisson con variable explicativa x es:

    log = + x

    La media satisface la siguiente relacin exponencial:

    = exp { + x} = e(e)x

    Ms Carlos Lpez de Castilla Vsquez Anlisis de datos Categricos

  • Introduccin

    GLM para data binaria

    GLM para conteos

    Modelos Aditivos Generalizados

    Modelo loglineal de Poisson

    Sobredispersin para un GLM de Poisson

    GLM con distribucin binomial negativa

    GLM de Poisson para independencia

    Ejemplo: Apareamiento del cangrejo

    Se presenta un GLM de Poisson para un estudio sobre el

    apareamiento del cangrejo de herradura.

    Cada cangrejo hembra tiene un cangrejo macho residente en

    su nido.

    El estudio investig los factores que hacen que un cangrejo

    hembra tenga otros machos no residentes llamados satlites.

    Las posibles variables explicativas son el color, la condicin de

    la columna vertebral, el peso y el ancho del caparazn del

    cangrejo hembra.

    Ms Carlos Lpez de Castilla Vsquez Anlisis de datos Categricos

  • Introduccin

    GLM para data binaria

    GLM para conteos

    Modelos Aditivos Generalizados

    Modelo loglineal de Poisson

    Sobredispersin para un GLM de Poisson

    GLM con distribucin binomial negativa

    GLM de Poisson para independencia

    Ejemplo: Apareamiento del cangrejo

    La variable respuesta es el nmero de satlites de un cangrejo

    hembra.

    Sea el nmero esperado de satlites de un cangrejo hembray x el ancho de su caparazn. Usando R:

    log = 3,3048+ 0,1641x

    La gura 1 muestra que el E(Y ) tiene una relacinaproximadamente lineal con el ancho del caparazn.

    Usando R:

    = 11,5255+ 0,5493x

    Ms Carlos Lpez de Castilla Vsquez Anlisis de datos Categricos

  • Introduccin

    GLM para data binaria

    GLM para conteos

    Modelos Aditivos Generalizados

    Modelo loglineal de Poisson

    Sobredispersin para un GLM de Poisson

    GLM con distribucin binomial negativa

    GLM de Poisson para independencia

    Ejemplo: Apareamiento del cangrejo

    Funcin de enlace log

    > modelo3 |z|)

    (Intercept) -3.30476 0.54224 -6.095 1.1e-09 ***

    Ancho 0.16405 0.01997 8.216 < 2e-16 ***

    Funcin de enlace identidad

    > modelo4 |z|)

    (Intercept) -11.52547 0.67767 -17.01

  • Introduccin

    GLM para data binaria

    GLM para conteos

    Modelos Aditivos Generalizados

    Modelo loglineal de Poisson

    Sobredispersin para un GLM de Poisson

    GLM con distribucin binomial negativa

    GLM de Poisson para independencia

    Ejemplo: Apareamiento del cangrejo

    Figura 1 : Apareamiento del cangrejo de herradura

    Ms Carlos Lpez de Castilla Vsquez Anlisis de datos Categricos

  • Introduccin

    GLM para data binaria

    GLM para conteos

    Modelos Aditivos Generalizados

    Modelo loglineal de Poisson

    Sobredispersin para un GLM de Poisson

    GLM con distribucin binomial negativa

    GLM de Poisson para independencia

    Sobredispersin para un GLM de Poisson

    La tabla 3 muestra la media y varianza muestral para el

    nmero de sattiles en cada categora considerada para el

    ancho del caparazn.

    Se puede observar que las varianzas son mayores que las

    medias.

    Esta variabilidad que es mayor que la estimada por el

    componente aleatorio del GLM reeja sobredispesin.

    Una causa para la sobredispersin es la heterogeneidad en los

    sujetos.

    Ms Carlos Lpez de Castilla Vsquez Anlisis de datos Categricos

  • Introduccin

    GLM para data binaria

    GLM para conteos

    Modelos Aditivos Generalizados

    Modelo loglineal de Poisson

    Sobredispersin para un GLM de Poisson

    GLM con distribucin binomial negativa

    GLM de Poisson para independencia

    Sobredispersin para un GLM de Poisson

    Tabla 3 : Media y varianza muestral para el nmero de sattiles

    Ancho (cm) Casos Media Varianza

    < 23.25 14 1.00 2.77

    23.25 - 24.25 14 1.43 8.88

    24.25 - 25.25 28 2.39 6.54

    25.25 - 26.25 39 2.69 11.38

    26.25 - 27.25 22 2.86 6.88

    27.25 - 28.25 24 3.87 8.81

    28.25 - 29.25 18 3.94 16.88

    > 29.25 14 5.14 8.29

    Ms Carlos Lpez de Castilla Vsquez Anlisis de datos Categricos

  • Introduccin

    GLM para data binaria

    GLM para conteos

    Modelos Aditivos Generalizados

    Modelo loglineal de Poisson

    Sobredispersin para un GLM de Poisson

    GLM con distribucin binomial negativa

    GLM de Poisson para independencia

    Sobredispersin para un GLM de Poisson

    La sobredispersin no representa un problema en una regresin

    ordinaria con distribucin normal para Y debido a que lavarianza es un parmetro separado.

    Para la distribucin binomial y Poisson, sin embargo, la

    varianza es funcin de la media.

    Cuando el modelo para la media es correcto pero la

    distribucin no es de Poisson, los estimadores de mxima

    verosimilitud son an consistentes pero sus errores estndar

    son incorrectos.

    Ms Carlos Lpez de Castilla Vsquez Anlisis de datos Categricos

  • Introduccin

    GLM para data binaria

    GLM para conteos

    Modelos Aditivos Generalizados

    Modelo loglineal de Poisson

    Sobredispersin para un GLM de Poisson

    GLM con distribucin binomial negativa

    GLM de Poisson para independencia

    GLM con distribucin binomial negativa

    La distribucin binomial negativa tiene funcin de probabilidad:

    f (y ; k ;) = (y + k)

    (k) (y + 1)

    (k

    + k

    )k (1 k

    + k

    )ypara y = 0, 1, 2, tal que E(Y ) = y Var(Y ) = + 2/k .El trmino k1 es llamado parmetro de dispersin.Cuando k1 0 entonces Var(Y ) y la distribucinbinomial negativa converge a la distribucin de Poisson.

    Ms Carlos Lpez de Castilla Vsquez Anlisis de datos Categricos

  • Introduccin

    GLM para data binaria

    GLM para conteos

    Modelos Aditivos Generalizados

    Modelo loglineal de Poisson

    Sobredispersin para un GLM de Poisson

    GLM con distribucin binomial negativa

    GLM de Poisson para independencia

    GLM con distribucin binomial negativa

    Usualmente k1 es desconocido y su estimacin ayuda aestudiar el grado de sobredispersin.

    Para k jo la funcin de probabilidad anterior puede expresarseen la forma de una familia exponencial natural.

    Un modelo con componente aleatorio con distribucin

    binomial negativa es un GLM.

    Por simplicidad, estos modelos consideran que el parmetro kes el mismo para todas las observaciones.

    Ms Carlos Lpez de Castilla Vsquez Anlisis de datos Categricos

  • Introduccin

    GLM para data binaria

    GLM para conteos

    Modelos Aditivos Generalizados

    Modelo loglineal de Poisson

    Sobredispersin para un GLM de Poisson

    GLM con distribucin binomial negativa

    GLM de Poisson para independencia

    GLM con distribucin binomial negativa

    As como los GLM para data binaria, para esta distribucin se

    tiene disponible una variedad de funciones de enlace.

    El GLM estimado para la distribucin binomial negativa

    usando el enlace identidad en R es:

    = 11,6329+ 0,5540x

    Adems k1 = 0,8998.

    Ms Carlos Lpez de Castilla Vsquez Anlisis de datos Categricos

  • Introduccin

    GLM para data binaria

    GLM para conteos

    Modelos Aditivos Generalizados

    Modelo loglineal de Poisson

    Sobredispersin para un GLM de Poisson

    GLM con distribucin binomial negativa

    GLM de Poisson para independencia

    GLM con distribucin binomial negativa

    Funcin de enlace identidad

    > library(MASS)

    > modelo5 |t|)

    (Intercept) -11.63290 0.98973 -11.75

  • Introduccin

    GLM para data binaria

    GLM para conteos

    Modelos Aditivos Generalizados

    Modelo loglineal de Poisson

    Sobredispersin para un GLM de Poisson

    GLM con distribucin binomial negativa

    GLM de Poisson para independencia

    Regresin de Poisson para tasas

    Cuando los eventos de un determinado tipo se producen en

    una unidad de tiempo o espacio es preferible modelar la tasa

    en las que stos ocurren en lugar que el nmero de ellos.

    Por ejemplo, un estudio de los homicidios ocurridos en un ao

    para una muestra de ciudades se podria modelar el nmero de

    homicidios por ao divididos por el tamao de la poblacin.

    El modelo podra describir como la tasa de homicidios depende

    de variables como la tasa de desempleo, la mediana del ingreso,

    el porcentaje de residentes que completan secundaria, etc.

    Ms Carlos Lpez de Castilla Vsquez Anlisis de datos Categricos

  • Introduccin

    GLM para data binaria

    GLM para conteos

    Modelos Aditivos Generalizados

    Modelo loglineal de Poisson

    Sobredispersin para un GLM de Poisson

    GLM con distribucin binomial negativa

    GLM de Poisson para independencia

    GLM para Poisson de independencia

    Suponga que una tabla tiene conteos independientes tales que

    Yij P (ij = ij) donde:i

    i =j

    j = 1

    El modelo anterior puede transformarse en un predictor lineal

    usando el enlace log:

    logij = + i +

    j

    donde = log, i = logi y j = log j .

    Ms Carlos Lpez de Castilla Vsquez Anlisis de datos Categricos

  • Introduccin

    GLM para data binaria

    GLM para conteos

    Modelos Aditivos Generalizados

    Modelo loglineal de Poisson

    Sobredispersin para un GLM de Poisson

    GLM con distribucin binomial negativa

    GLM de Poisson para independencia

    GLM para Poisson de independencia

    Como los {Yij} son independientes, el tamao de muestratotal n =

    i

    j Yij P

    ( =

    i

    j ij

    ).

    Condicionados sobre n los conteos en las celdas tienendistribucinM{piij = ij/ = ij}.Adems condicionado a n, {Yi+} M{pii+ = i} y{Y+j} M{pi+j = j}.Condicionado sobre n el modelo anterior es multinomial ysatisface piij = ij = pii+pi+j que corresponde a laindependencia en una tabla de dos vas.

    Ms Carlos Lpez de Castilla Vsquez Anlisis de datos Categricos

  • Introduccin

    GLM para data binaria

    GLM para conteos

    Modelos Aditivos Generalizados

    Modelos Aditivos Generalizados

    Modelos Aditivos Generaizados (GAM)

    La estructura g (i ) =

    j jxij se generaliza hacia:

    g (i ) =j

    Sj (xij)

    donde Sj () es una funcin suave no especicada del predictorj , por ejemplo el spline cbico.

    Al igual que los GLM, este modelo especica una funcin para

    para el componente aleatorio y una funcin de enlace g .

    El modelo resultante es llamado Modelo Aditivo Generalizado

    (Hastie y Tibshirani 1990)

    Ms Carlos Lpez de Castilla Vsquez Anlisis de datos Categricos

    IntroduccinIntroduccinModelo Lineal GeneralizadoTipo de anlisis segn el GLMDevianza

    GLM para data binariaModelo lineal de probabilidadModelo de regresin logsticoGLM binomial para tablas 22Funcin de enlace probit

    GLM para conteosModelo loglineal de PoissonSobredispersin para un GLM de PoissonGLM con distribucin binomial negativaGLM de Poisson para independencia

    Modelos Aditivos GeneralizadosModelos Aditivos Generalizados