16. Modelos Lineales Generalizados

Embed Size (px)

Citation preview

Modelos Lineales Generalizados Enaosrecienteslosmodeloslinealesgeneralizadoshanganadogran popularidad como herramienta de modelaje estadsticos. Esta popularidad es en parte a laflexibilidaddeestosmodelosparatratardiferentesproblemasestadsticosyla disponibilidad de programas de computo para ajustar los modelos. Losmodeloslinealesgeneralizados(GLIMs)fuerondefinidosporNeldery Wedderburn(Nelder,J.A.,andWedderburn,R.W.M.1972.GeneralizedLinearModels. Journal.OftheRoyalStatisticalSocietyA,135,370-384).Estosmodelossonuna extensindelosmodeloslinealestradicionalesquepermitenquelamediadela poblacindependaenunpredictorlinealatravsdeunafuncindeliguenolineal,y permitequeladistribucindeprobabilidaddelarespuestaseacualquiermiembrode unafamiliaexponencialdedistribuciones.Muchosdelosmodelosestadsticos ampliamenteusadossonmodeloslinealesgeneralizados.Estosincluyenmodelos linealesclsicosconerroresnormales,modelosLogityProbitparadatosbinariosy modelosloglinealesparadatosmultinomiales.Muchosotrosmodelosestadsticos puedenserformuladoscomounGLIMseleccionandounafuncindeligueyuna distribucin probabilstica de la respuesta apropiada. Paraunadescripcindetalladadelmodelajeestadsticoconestosmodelos consulte a McCullagh y Nelder (McCullagh, P., and Nelder, J.A. 1989. Generalized Linear Models.London:ChapmanandHall).EllibrodeDobson(Dobson,A.1990.An introductiontoGeneralizedLinearModels)estambinunareferenciaexcelentecon muchos ejemplos y aplicaciones de estos modelos. Que es un Modelos Lineal Generalizado? Un modelo lineal tradicional tiene la forma: i i ie x y + = |' Donde iy eslavariablederespuestaparala i-simaobservacin, ix esunvector columnadecovariables,ovariablesexplicatoriasparalaobservacin i,queson conocidos por el diseo experimental y son considerados como fijos o no aleatorios. El vector de coeficientes desconocidos|es estimado por cuadrados mnimos para ajustar losdatosy .Los ie seasumequesonvariablesaleatorias,independientescon distribucinnormal,conmediaceroyvarianzaconstante.Elvaloresperadode iy , denotado como iu , es: | u'i ix =Mientraslosmodeloslinealestradicionalessonusadosextensivamenteenel anlisisdedatosestadsticos,existenalgunosproblemasparaloscualesnoson apropiados. -Puede no ser razonable asumir que los datos son normalmente distribuidos. Por ejemplo, la distribucin normal (la cual es continua) quizs no sea adecuada para modelar conteos o medidas de proporcin que son consideradas como discretas. -Silamediade losdatos estarestringidanaturalmenteaunrangodevalores,el modelolinealtradicionalpuedenoserapropiadodadoqueelpredictorlineal |'ix puedetomarcualquiervalor.Porejemplo,lamediadeunamedidade proporcin esta entre 0 y 1, pero el predictor lineal de esta media en un modelo lineal tradicional no esta restringido a este rango. -Puede no ser realista asumir que la varianza de los datos es constante para todas las observaciones. Por ejemplo, no es usual observar datos donde la varianza se incrementa con la media de los datos. Un modelo lineal generalizado extiende el modelo lineal tradicional y por lo tanto es aplicableaunampliorangodeproblemasdeanlisisdedatos.Unmodelolineal generalizado consiste de los siguientes componentes. -Loscomponenteslinealesestndefinidosdemanerasimilaralosmodelos lineales tradicionales | n'i ix =-g esunafuncindeliguemontonicamentediferenciablequedescribecomoel valor esperado de iyse relaciona con el predictor lineal in : ( ) | u'i ix g =-Las variables de respuesta iyson independientes para i =1,2, , n y tienen una distribucin que pertenece a la familia exponencial. Esto implica que la varianza de la respuesta depende de la mediaua travs de la funcin de varianza V : ( ) ( )i i iw V y / var u v =-Dondev esunaconstantey iw esunponderadorconocidoparacada observacin.Elparmetrodedispersinv esconocido,porejemploparala distribucin Binomial, o tiene que ser estimado. De manera similar a los modelos tradicionales clsicos, el ajuste de un modelo lineal generalizado puede resumirse a travs de estadsticos tales como los estimadores de los parmetrosysuserroresestndar.Tambinesposiblehacerinferenciaestadstica sobrelosparmetrosusandointervalosdeconfianzaypruebasdehiptesis.Sin embargo,losprocedimientosdeinferenciaespecficosestnbasadosen consideraciones asintticas, dado que la teora no esta disponible o no es prctica para todos los modelos lineales generalizados. Ejemplos de Modelos lineales Generalizados: Para construir un GLIM, primero se deciden las variables explicativas y de respuesta paralosdatos,posteriormenteseleccionaradecuadamentelafuncindeligueyla distribucindeprobabilidaddelavariablederespuesta.Acontinuacinsepresentan algunos ejemplos de modelos lineales generalizados. Las variables explicatorias pueden sercualquiercombinacindevariablescontinuas,variablesdeclasificacine interacciones entre ellas. Modelo lineal tradicional -Variable de respuesta: variable continua -Distribucin: normal -Funcin de ligue: identidadu n =Regresin logstica -Variable de respuesta: una proporcin -Distribucin: Binomial -Funcin de ligue: Logit ||.|

\|=uun1logRegresin Poisson en un modelo Log lineal -Variable de respuesta: un conteo -Distribucin: Poisson -Funcin de ligue: log( ) u n log =Regresin Poisson en un modelo Log lineal -Variable de respuesta: una variable continua positiva -Distribucin: Poisson -Funcin de ligue: log( ) u n log =Funciones de ligue ms comunes Identidad:u n =Logit: ||.|

\|=uun1logProbit:= n ( ) u v ,dondev eslafuncindedistribucinacumulativadelanormal estndar. Potencia: () 00log ===uunsisi Log:( ) u n log =Log-Log complementario:( ) ( ) u n = 1 log logDistribuciones y varianzas asociadas ms comunes: Normal:( ) 1 = u VBinomial:( ) ( ) u u u = 1 VPoisson:( ) u u = VGamma:( )2u u = VGaussiana inversa:( )3u u = VMiembros de la familia exponencial: Normal:( ) ( ) | | > < = y y y f2 221exp21u oto o ( )

+=221222 222 ln2 2exp toououoy y Binomial: ( ) ( ) N y P PyNy fy N y, , 1 , 0 1= ||.|

\|= ( )

||.|

\|+ +|.|

\|=yNP NPPy ln 1 ln1ln expPoisson: ( ) N yyey fy, , 1 , 0! = = ( ) () | | ! ln ln exp y y = Forma general: ( ) ( )

( ) ( )

+ y d c b y aeres de natural Parametrou uintexpCuando a(y) = y, entonces decimos que la distribucin esta en su forma cannica. Distribucin( ) u buNormal 2ou Binomial|.|

\| PP1lnPPoisson( ) ln Componentes de los GLIMs: 1.Componentes aleatorios:y1, y2, yN vienen de una distribucin que pertenece a la familia exponencial 2.Componente sistemtico: i ix n | =3.La funcin de ligue relaciona a los yis con|ix( ) ( ) ( )i i i i ig x g x g n | u | u1 1 = = =Losmodeloslinealesclsicosutilizan,queeslafuncindeliguedeidentidad. Para el caso de la proporcin Binomial:( )i i in P Bin P , ~. ( ) LogitPPP giii=||.|

\|=1lnPara el caso de la Poisson:( )i iP y ~( ) ( )i ie e gxi i in | = = = lnLas funciones de ligue de identidad, Logit y Log, son funciones de ligue a partir de ladistribucinNormal,BinomialyPoissonenformacannica.( )ig u puedetener cualquier forma si es que tiene una inversa y es diferenciable. Ejemplos: 1) Binomial: Respuesta a la dosis de un frmacoX1X2X3Xt Muertosn11n12n13n1tn1. Vivosn21n22n23n2tn2. n.1n.2n.3n.tn.. iiinnP.1 =Dado que son proporciones podemos usar un Logit. Logit = ( )( )( )

.| n| | | | |'2 321 2 1 1 01lni iixt pP giiX X X XPP=+ + + + = 2)Poisson:conteodelnumero de pstulasenhojasde frjol expuestas adoscepas de una enfermedad despus de 10 das. En este caso, dado que cada mitad de hoja fue expuesta a una de las dos cepas, la hoja acta como bloque. HojaCepa 1Cepa 2 1y11y12 2y21y22 . . .NyN1yN2 yij = numero de pstulas en la hoja i para la cepa j. Asumimos: yij ~ P( )ij | |ij ijy E =( ) |ut u 'iixij j igije h + + + =Estimacin: Usualmenteusamosmximaverisimilitudparaobtenerestimadoresde|donde == =pji j ij ix x1n | |Asumiendoquelafuncindeligueestaensuformacannica,ellogaritmode mximaverisimilitudparalai-simaobservacines( ) ( ) ( )i i i iy d c b y + + u u ,detal manera que: ( ) ( ) ( ) ( ) + + = = =i i i i i i iny d C B y l y f l u u u t | logParaobtenerestimadoresdemximaverisimilitud: =cc==P jN ijil, , 1, , 10

|y obtenga soluciones para i| . Mtodos para obtener soluciones de i| : 1.Newton Raphson ( ) ( )

Hessian Matrizm mH H b b1121 =( ) 11=cc=mblH|| ( ) 1'22=c cc=mblH|| | 2.Scoring:ReemplaceH2conE(H2)=I(b)=matrizdeinformacinevaluadaa b = | .1 ( ) ( )( ) | |111 1H b I b bm m m + =Esto se reduce a un tipo de cuadrados mnimos ponderados iterativos; tomando el j, k elemento de I(b): ( )( )( )( )||.|

\|||.|

\|cc -||.|

\|cc=||.|

\|cc c=||.|

\|c c c = = iiNi iik i iiiNi iij i ik j k jn y Vx yn y Vx yEl lElEu u uu| | | |1 122 Despus de algo de lgebra obtenemos la ecuaciones iterativas: ( )( )( ) ( )( ) ( )11 1 1H b b I b b Im m m m+ = = ( ) ( ) ( )11 ' 'H WXb X b WX Xm m+ = Donde: ( )( )( )( )

||.|

\|cc ||.|

\|cc =nnnn niiii in y Vy En y Vy EWu uu u2200

..

( )( )

||||.|

\|cc||||.|

\|cc=nnniiiy Vny Vnuu

..

00 El j-simo elemento de H1 = ( )( )( )==||.|

\|cc=ccNi iiiij i ibjn y Vx ylm 1 1uu|| ( )( )

||.|

\|cc||.|

\|cc=nnn niii ijnynyW xuuuu.' de tal manera que H1 = XW As que ( )( )( )..ZnynyXb W X H WXb Xnnn niii im||||||.|

\|

||.|

\|cc||.|

\|cc+ = +uuuu'11 ' Entonces: ( ) ( ) ( )11 ''H Wb X b WX Xm m= = ( )( ) ( )( ) WZ X WX X b WZ X b WX Xm m '1' ''= =Para usarlo necesitamos: i)obtener W,usando ( ) 1 mbii)obtener solucin para ( ) mbiii)pararlasiteracionessi ( ) ( )( ) 11mm mll l