22
Desde una perspectiva matemática, el fundamento de gran parte de las pruebas estadísticas se encuentra en el Modelo Lineal (ML) general o clásico. Su impor- tancia radica en que su estructura, supo- nemos, refleja los elementos explicativos de un fenómeno por medio de relaciones funcionales probabilísticas entre varia- bles. El Modelo Lineal Generalizado (MLG), que tratamos en el presente tra- bajo, es la extensión natural del Modelo Lineal clásico. Inicialmente expuesto por Nelder y Wedderburn (1972), ha llegado a suponer “una auténtica revolución esta- dística” (Ato y Vallejo, 2007, 53), convir- tiéndose en una solución especialmente adecuada para modelos de dependencia con datos no métricos. En los estudios en educación es fre- cuente trabajar atributos, actitudes o con- ductas que, siendo en su dimensión latente continuos, se miden de forma no métrica (discreta, nominal u ordinal), no ajustándose, en consecuencia, al Modelo Lineal clásico e incumpliendo los su- puestos de linealidad y normalidad. Ejemplos son la clasificación binaria de apto-no apto, la medida ordinal del curso académico, el recuento del número de años cursados, etc., situaciones que requieren de modelos que trabajen con datos dicotómicos, ordinales, categóricos o de elecciones discretas, es decir, de modelos de probabilidad de un evento (fundamentalmente modelos logit, probit, modelos de regresión de Poisson y modelos de regresión ordinal). Estos modelos son parte integrante de los Modelos Lineales Generalizados y, junto con la regresión lineal, el análisis de varianza, la regresión logística, los modelos de respuesta multinomial, e incluso ciertos análisis de la supervi- vencia y de series temporales, son, en última instancia, extensiones del Modelo Lineal clásico. Por tanto, para abordar aquí el Modelo Lineal Generalizado nos dete- revista española de pedagogía año LXIX, nº 248, enero-abril 2011, 59-80 59 Análisis de datos con el Modelo Lineal Generalizado. Una aplicación con R por Emelina LÓPEZ-GONZÁLEZ y Marcos RUIZ-SOLER Universidad de Málaga

AnálisisdedatosconelModeloLineal Generalizado ... · nemosantesenel ModeloLinealclásico, justificandoasílaubicacióndelprimero. Seguimos con una comparación entre ambos, Modelo

Embed Size (px)

Citation preview

Page 1: AnálisisdedatosconelModeloLineal Generalizado ... · nemosantesenel ModeloLinealclásico, justificandoasílaubicacióndelprimero. Seguimos con una comparación entre ambos, Modelo

Desde una perspectiva matemática, elfundamento de gran parte de las pruebasestadísticas se encuentra en el ModeloLineal (ML) general o clásico. Su impor-tancia radica en que su estructura, supo-nemos, refleja los elementos explicativosde un fenómeno por medio de relacionesfuncionales probabilísticas entre varia-bles. El Modelo Lineal Generalizado(MLG), que tratamos en el presente tra-bajo, es la extensión natural del ModeloLineal clásico. Inicialmente expuesto porNelder y Wedderburn (1972), ha llegado asuponer “una auténtica revolución esta-dística” (Ato y Vallejo, 2007, 53), convir-tiéndose en una solución especialmenteadecuada para modelos de dependenciacon datos no métricos.

En los estudios en educación es fre-cuente trabajar atributos, actitudes o con-ductas que, siendo en su dimensiónlatente continuos, se miden de forma nométrica (discreta, nominal u ordinal), noajustándose, en consecuencia, al Modelo

Lineal clásico e incumpliendo los su-puestos de linealidad y normalidad.Ejemplos son la clasificación binaria deapto-no apto, la medida ordinal del cursoacadémico, el recuento del número deaños cursados, etc., situaciones querequieren de modelos que trabajen condatos dicotómicos, ordinales, categóricos ode elecciones discretas, es decir, demodelos de probabilidad de un evento(fundamentalmente modelos logit, probit,modelos de regresión de Poisson ymodelos de regresión ordinal). Estosmodelos son parte integrante de losModelos Lineales Generalizados y, juntocon la regresión lineal, el análisis devarianza, la regresión logística, losmodelos de respuesta multinomial, eincluso ciertos análisis de la supervi-vencia y de series temporales, son, enúltima instancia, extensiones del ModeloLineal clásico.

Por tanto, para abordar aquí elModelo Lineal Generalizado nos dete-

revistaespañola

depedagogía

añoLXIX,nº

248,enero-abril2011,59-80

59

Análisis de datos con el Modelo LinealGeneralizado. Una aplicación con R

por Emelina LÓPEZ-GONZÁLEZ y Marcos RUIZ-SOLERUniversidad de Málaga

Page 2: AnálisisdedatosconelModeloLineal Generalizado ... · nemosantesenel ModeloLinealclásico, justificandoasílaubicacióndelprimero. Seguimos con una comparación entre ambos, Modelo

nemos antes en el Modelo Lineal clásico,justificando así la ubicación del primero.Seguimos con una comparación entreambos, Modelo Lineal y Modelo LinealGeneralizado, terminando con la presen-tación de un caso particular de MLG: unejemplo de regresión de Poisson emple-ando el software R.

Ahora bien, para hablar del ModeloLineal Generalizado debemos explicarantes el marco natural en el que se desa-rrolla, el modelado estadístico, unentorno que, a diferencia de las aplica-ciones más tradicionales centradas en elcontraste de hipótesis y en las pruebas designificación (ver López-González, 2003),se establece a partir de la década de los60 atendiendo a la estimación de paráme-tros y a la comparación y ajuste demodelos de probabilidad a los datos empí-ricos (Ato y López-García, 1996, 80; y Atoy Vallejo, 2007, 40).

Modelado estadísticoEl empleo de modelos es un proceso

consustancial al ser humano. Para com-prender lo que sucede a nuestro alre-dedor, a partir de la observación deta-llada de los acontecimientos solemoselaborar “modelos” mentales sobre cómofuncionan los fenómenos, pudiendo rea-lizar, incluso, predicciones sobre ellos. Enel ámbito científico, un modelo queexplica un fenómeno suele expresarse deforma matemática (un modelo que, igual-mente, ha sido derivado de descripcionesy que probablemente será útil para pre-decir). Con esa vestimenta formal, la ela-boración de modelos a la que estamosacostumbrados en la vida cotidiana puedetransformarse aparentemente en algo

extraño, pero no es más que una versiónelegante del mismo procedimiento. Así loseñalan McCullagh y Nelder (1989)cuando afirman que la construcción demodelos requiere de una mezcla de arte yconocimientos por parte del investigador.Este proceso se conoce en ciencia comomodelado matemático o modelizaciónmatemática, y cuando los fenómenos aexplicar son probabilísticos, antes quedeterminísticos (como sucede frecuente-mente en las ciencias del comporta-miento, sociales y de la educación),hablamos de modelado estadístico o esto-cástico [1].

En un sentido amplio, un modelo pre-tende explicar la variación de una res-puesta a partir de la relación conjunta dedos fuentes de variabilidad, una decarácter determinista y otra aleatoria, loque responde a la expresión:

Respuesta = componente sistemático +componente aleatorio.

Judd y McClelland (1989, 1) toman laexpresión anterior como: DATOS = MO-DELO + ERROR, asociando MODELO ala parte sistemática. Así, los DATOScorresponderían a las observaciones quese quieren analizar (la variable derespuesta o variable dependiente).MODELO es la función que se introducecon objeto de explicar los datos (una fun-ción ponderada de una o más variablesexplicativas o predictores). Y, dado que lavariabilidad recogida en DATOS no ter-mina de estar explicada, se introduce eltérmino ERROR, que contiene la discre-pancia o falta de ajuste entre DATOS yMODELO (entre la realidad empírica y la

revistaespañolade

pedagogía

añoLXIX,nº248,

enero-abril2011,5

9-80

60

Emelina LÓPEZ-GONZÁLEZ y Marcos RUIZ-SOLER

Page 3: AnálisisdedatosconelModeloLineal Generalizado ... · nemosantesenel ModeloLinealclásico, justificandoasílaubicacióndelprimero. Seguimos con una comparación entre ambos, Modelo

explicación teórica o sustantiva). Es dese-able que el MODELO sea, por tanto, unabuena representación de los DATOS, deforma que el ERROR se reduzca lomáximo posible.

De la construcción, formulación yajuste de modelos a los datos empíricos seencarga precisamente el modelado esta-dístico, debiendo responder a tres crite-rios: (a) criterio estadístico o principio debondad de ajuste: la inclusión de paráme-tros en el MODELO en beneficio de unamejor representación de los DATOS conla correspondiente disminución delERROR (ver McClelland, 1997); (b) cri-terio lógico o principio de parsimonia: laselección de los parámetros que formenparte del modelo de tal modo que éste seconvierta en una representación simple ysobria de la realidad (Judd y McClelland,1989, 3; y Ruiz-Soler, Pelegrina y López-González, 2000) y (c) criterio sustantivo ointegración teórica del modelo en la redconceptual que lo generó (Ato y Vallejo,2007, 47).

Esta construcción del modelo másparsimonioso que explique la variable derespuesta con el menor error posible serealiza atendiendo a unas etapas:

1. Especificación del modelo teórico,determinando qué variables son deinterés, así como cuáles son las relacionesentre ellas. Esta situación da de lleno conel dilema entre los principios de parsi-monia versus ajuste: que el modelo des-criba de la forma más simple posible, obien que la concordancia entre el modeloy los datos sea lo más completa posible, esdecir, con el mínimo error.

2. Estimación de parámetros, calcu-lando el valor de los coeficientes delmodelo examinado a partir del conjuntode datos observados, al objeto de deter-minar si el modelo teórico propuesto esaceptable como representación aproxi-mada de los datos.

3. Selección del modelo, valorando siel nivel de discrepancia entre los datosobservados y los datos ajustados es sufi-cientemente bajo como para optar por elmodelo o, por el contrario, suficiente-mente elevado como para rechazarlo.

4. Evaluación del modelo, exami-nando las observaciones individuales(leverage points), los datos influyentes(influentials) y los datos anómalos(outliers), así como comprobando lossupuestos de normalidad, linealidad,homoscedasticidad e independencia.

5. Interpretación del modelo, com-prendiendo sus implicaciones con res-pecto a la variable de respuesta. Esta faseconlleva una explicación detallada de losparámetros del modelo para comprobar sise cumplen los criterios estadístico, lógicoy sustantivo.

Finalmente se acepta o no el modeloy, si es preciso, se reinicia el proceso.

Un software estadístico que reúne lascaracterísticas necesarias para trabajarel modelado estadístico es R (una aproxi-mación en el ámbito educativo es el tra-bajo de Ruiz-Soler y López-González,2009) [2]. La manera de trabajar del pro-grama R con decisiones y pasos sucesivosse adapta fácilmente a la filosofía del

revistaespañola

depedagogía

añoLXIX,nº

248,enero-abril2011,59-80

61

Análisis de datos con el Modelo Lineal Generalizado. Una aplicación con R

Page 4: AnálisisdedatosconelModeloLineal Generalizado ... · nemosantesenel ModeloLinealclásico, justificandoasílaubicacióndelprimero. Seguimos con una comparación entre ambos, Modelo

modelado: se van construyendo distintosmodelos, calculando, al mismo tiempo,medidas de la desvianza o discrepanciaentre los valores empíricos y los ajustadospara valorar el modelo, aceptándolo ten-tativamente o rechazándolo, y permi-tiendo, finalmente, una mejor integraciónde la solución obtenida en la teoría sus-tantiva de partida. Por estas razones elejemplo que aquí presentamos sobre unaregresión de Poisson es ejecutado con R,especialmente diseñado también para eltrabajo con cualquiera de las funcionesmatemáticas que comprenden los Mo-delos Lineales Generalizados.

Modelo LinealLa fórmula general del Modelo Lineal

es Y = ƒ(X)+g(ε), donde toda observaciónsobre la variable de respuesta es la sumade: (a) los efectos de un grupo de factoreso componentes sistemáticos –ƒ(X)–, queimplican un conjunto de parámetros deuna población y un conjunto de variablesindependientes relevantes medidas sobrecada uno de los sujetos con los que se tra-baja, y (b) la función g(ε), que representael efecto de los componentes aleatorios yes resultado de una o más distribucionesde probabilidad dependientes de unpequeño número de parámetros. En estafórmula general tienen cabida unaamplia variedad de modelos linealesrepresentativos de las relaciones estadís-ticas entre variables explicativas y de res-puesta. Ahora bien, interesa resaltaraquellos que cumplen con una serie derestricciones respecto a las variablesexplicativas.

La primera es que para el caso de unavariable de respuesta Y debe haber un

conjunto de observaciones yi sobre una ovarias variables explicativas, y es nece-sario establecer ciertos supuestos res-pecto a la distribución de probabilidad dedichas variables aleatorias, los cuáles,además, varían según la escala de medidautilizada. Una segunda restricción sobrelas variables explicativas es que cada unarepresenta una muestra de valores obser-vados seleccionados arbitrariamente porel investigador (componentes fijos) luego,al tratarse de valores prefijados, cual-quier transformación de una variableexplicativa puede ser considerada tam-bién como variable independiente. Elmodelo debe incluir, además, un conjuntode variables aleatorias no observablespero sí estimables: los parámetros delmodelo (su estimación es una etapa fun-damental en el ajuste del modelo, comoha quedado dicho). Por último, es precisoque el modelo incluya una o más varia-bles que no son ni observables ni estima-bles, los componentes aleatorios, siendo elmás importante el componente de erroraleatorio que recoge la variabilidaddebida a las diferencias individuales, alos errores de medida y, en general, aotras variables explicativas no incluidasen el modelo.

Al hablar de Modelo Lineal es conve-niente señalar que la linealidad puedetener lugar de distintos modos y que,según ellos se obtienen modelos de uno uotro tipo. Cabe considerar como ModeloLineal, no obstante, todo aquel que lo seaen sus parámetros, con independencia deque sus variables explicativas cumplanesta condición o no. Se habla, entonces, deun Modelo Lineal de primer orden para kvariables explicativas y k+1 parámetros

revistaespañolade

pedagogía

añoLXIX,nº248,

enero-abril2011,5

9-80

62

Emelina LÓPEZ-GONZÁLEZ y Marcos RUIZ-SOLER

Page 5: AnálisisdedatosconelModeloLineal Generalizado ... · nemosantesenel ModeloLinealclásico, justificandoasílaubicacióndelprimero. Seguimos con una comparación entre ambos, Modelo

si el modelo es lineal en sus parámetros yen sus variables explicativas, respon-diendo a la siguiente fórmula general:

Si el modelo es lineal en sus paráme-tros pero no en las variables explicativassería un Modelo Lineal de m-ésimo orden(cuadrático, cúbico, etc.) con km variablesindependientes y km+1 parámetros.Puede incluir componentes de interaccióny ser susceptible de ser linealizado trans-formando sus variables explicativas. Suformulación es:

Si el modelo no es lineal en los pará-metros y/o en las variables explicativaspuede adoptar múltiples formulaciones.No obstante, al poderse linealizarmediante las transformaciones ade-cuadas suele ser tratado como modelointrínsecamente lineal (Draper y Smith,1998, 459).

Los modelos que no se ajustan a nin-guna de las anteriores situaciones son,entonces, modelos no lineales.

La literatura respecto al ModeloLineal clásico es amplia. Una presenta-ción sencilla se encuentra en Fox (1997);Kleinbaum, Kupper y Miller (1988);Neter, Kutner, Nachtsheim y Was-serman (1996); Pedhazur (1997); y Weis-berg (2005). Con un nivel más avanzadoestán los trabajos de McCullagh yNelder (1989); Horton (1985); Seber yLee (2003); y Tatsuoka (1993). Desde laperspectiva del modelado estadístico

pueden consultarse los textos de Juddy McClelland (1989) y Losilla y cols.(2005). El Modelo Lineal explicado con Rse encuentra en Crawley (2007), Fara-way (2004), y en la imprescindible obrade Fox (2002).

Por otro lado, el Modelo Lineal es sus-ceptible de numerosas variaciones paraajustarse a las particularidades de unainvestigación específica, variaciones quea nivel matemático se ven reflejadas enlas relaciones existentes entre la variablede respuesta, las variables explicativas,los parámetros del modelo y el compo-nente de error aleatorio. Sin embargo, porlo general, tres son las principales formasque el Modelo Lineal general puedeadoptar dependiendo de la estructuramétrica de las variables explicativas: laforma de un modelo de regresión, laforma de un modelo de análisis devarianza (ANOVA) o de diseño experi-mental, y la forma de un modelo de aná-lisis de covarianza (ANCOVA) o de diseñoexperimental con variables concomi-tantes (Ato y Vallejo, 2007; Bock, 1985;Dobson y Barnett, 2008; Hocking, 1985;Tatsuoka, 1993; y Timm, 2002).

En los modelos de regresión las varia-bles explicativas son de naturalezamétrica, cuantitativa continua o discreta,cumpliendo con los supuestos básicos delModelo Lineal, a saber: linealidad,homoscedasticidad, normalidad e inde-pendencia de los errores (pueden consul-tarse, por ejemplo, en López-González,1994). Los modelos de regresión simple,múltiple, multivariante o la correlacióncanónica se incluyen en este tipo demodelos.

revistaespañola

depedagogía

añoLXIX,nº

248,enero-abril2011,59-80

63

Análisis de datos con el Modelo Lineal Generalizado. Una aplicación con R

Page 6: AnálisisdedatosconelModeloLineal Generalizado ... · nemosantesenel ModeloLinealclásico, justificandoasílaubicacióndelprimero. Seguimos con una comparación entre ambos, Modelo

En los modelos de análisis devarianza (ANOVA) o de diseños experi-mentales las variables explicativas pre-sentan una estructura no métrica decarácter categórico (dicotómico o politó-mico), utilizando variables dummy con laintención de representar la pertenencia alos grupos que configuran las categorías.El interés fundamental de estos modeloses la búsqueda de inferencias válidasacerca de las medias poblacionales apartir de las medias muestrales obte-nidas en cada una de las condiciones detratamiento experimental. Aquí se sitúanlos modelos de ANOVA, que según se con-sidere el efecto de tratamiento pueden serfijos, aleatorios o mixtos, y los modelos deANOVA factorial, que dependiendo de lasrelaciones entre los factores pueden serde clasificación cruzada o anidada.

Por último, en los modelos de aná-lisis de covarianza (ANCOVA) o modelosde diseño experimental con variablesconcomitantes unas variables tienen unaestructura métrica cuantitativa con-tinua o discreta (covariables) y otrasvariables explicativas tienen una estruc-tura no métrica. El objetivo de estosmodelos es el mismo que el de losmodelos de análisis de varianza, a saber,realizar inferencias sobre las medias delos distintos grupos o condiciones de tra-tamiento, pero aquí se considera tam-bién la posibilidad de reducir la varianzade error. Entre estos modelos seencuentra el modelo de ANCOVA facto-rial, el modelo de ANCOVA multiva-riante, los diseños de bloques aleatoriosy, en general, el conjunto de diseños convariables concomitantes (cuadradolatino, grecolatino, etc.).

En todos los modelos señalados se hapartido del supuesto de que la variable derespuesta posee una estructura métricacuantitativa continua (habitualmentenormal) o discreta. Sin embargo, esposible flexibilizar este criterio y consi-derar una formulación más general quepermita también contemplar variablesdependientes con una estructura nométrica, es decir, variables categóricas(ordinales o nominales), al tiempo querelajar los supuestos del Modelos Linealclásico, como la linealidad o la homosce-dasticidad, no así la independencia de loserrores. Los modelos resultantes guardanuna estrecha similitud con los modeloscitados y dan paso a los modelos convariables categóricas [3] y a los ModelosLineales Generalizados. En este grangrupo podemos situar los modelos deregresión logística, modelos logit, probit ymodelos loglineales, entre otros.

A modo de síntesis clasificatoria, losprincipales modelos apuntados hastaahora se recogen en la Tabla 1 siguiendolas clasificaciones de Ato y cols. (2005) yLosilla y cols. (2005). También puede con-sultarse la clasificación de Dobson y Bar-nett (2008, 3).

Modelo Lineal GeneralizadoLos primeros trabajos donde se intro-

duce y desarrolla el Modelo Lineal Gene-ralizado son, respectivamente, Neldery Wedderburgn (1972) y McCullagh yNelder (1989). Una buena introducción seencuentra en las terceras ediciones de lasobras de Draper y Smith (1998) y Weis-berg (2005), así como en el imprescindibletexto de Dobson y Barnett (2008). Desdeel entorno de modelado estadístico, el

revistaespañolade

pedagogía

añoLXIX,nº248,

enero-abril2011,5

9-80

64

Emelina LÓPEZ-GONZÁLEZ y Marcos RUIZ-SOLER

Page 7: AnálisisdedatosconelModeloLineal Generalizado ... · nemosantesenel ModeloLinealclásico, justificandoasílaubicacióndelprimero. Seguimos con una comparación entre ambos, Modelo

MLG se estudia en Hutcheson y Sofro-niou (1999). En castellano la literatura estodavía escasa; destacamos Ato y López-García (1996) y Ato y cols. (2005). Elempleo de los Modelos Lineales Generali-zados con R se trabaja en Crawley (2007),Dobson y Barnett (2008), Faraway (2006),Fox (2002) y en Wood (2006), dondeincluso se amplía su estudio a los ModelosGeneralizados Aditivos.

Como ha quedado planteado, tanto elModelo Lineal Generalizado (MLG) comoel modelado estadístico son herramientasmetodológicas que permiten codificartodas las situaciones de análisis dentro deun mismo esquema general. Obviamente,esto facilita el aprendizaje de nuevosmodelos de análisis porque se trata sim-plemente de contemplarlos como casos

particulares de un modelo más general yaconocido, el Modelo Lineal (ML). Veamoslas relaciones entre ambos.

En la Tabla 1 puede observarse cómoel Modelo Lineal es el caso más elementaldel Modelo Lineal Generalizado. Las coin-cidencias y las diferencias entre uno yotro hacen posible, en el caso del MLG, untratamiento matemático y estadísticoadecuado a los niveles de medida de lasvariables que contiene.

Siguiendo a Ato y cols. (2005), el MLGtiene componentes empíricos (las varia-bles que se registran) y componentes teó-ricos que son:

El vector de la respuesta media:g( µi ) = ŋi

revistaespañola

depedagogía

añoLXIX,nº

248,enero-abril2011,59-80

65

Análisis de datos con el Modelo Lineal Generalizado. Una aplicación con R

TABLA 1: Principales Modelos Lineales Generalizados

Page 8: AnálisisdedatosconelModeloLineal Generalizado ... · nemosantesenel ModeloLinealclásico, justificandoasílaubicacióndelprimero. Seguimos con una comparación entre ambos, Modelo

El vector del predictor lineal: ßj xij

(componente sistemático) + εi (compo-nente aleatorio).

Precisamente los términos componentesistemático y componente aleatorio res-ponden al enfoque del modelado estadísticoal que nos hemos referido anteriormente.

revistaespañolade

pedagogía

añoLXIX,nº248,

enero-abril2011,5

9-80

66

Emelina LÓPEZ-GONZÁLEZ y Marcos RUIZ-SOLER

TABLA 2: Comparación entre ML y MLG (López-González y cols., 2002a)

Como puede verse en la Tabla 2 laexpresión del modelo en ambos casos (MLy MLG) es la misma, siendo los valoresajustados µi = E(Yi). El predictor linealtambién coincide: ŋi = ∑

jßj xj. Aparecen

diferencias, no obstante, en la relaciónentre los valores ajustados µi y el pre-dictor lineal ŋi. Estas diferencias se con-cretan en la función de enlace y en la dis-tribución que ésta debe seguir, funciónque cobra un especial significado quepasamos a explicar.

(a) Mientras que en el ML se produceuna relación de identidad entre losvalores ajustados y el predictor lineal,µi = ŋi, en el MLG la linealidad se esta-blece en la escala del predictor lineal perono en la escala de los valores ajustados.

No se da, por tanto, la identidad entrevalores ajustados y valores predichos,sino que entre ellos media una funciónque los relaciona, la función de enlace:g( µi ) = ŋi . Esto hace que en el MLGambos lados de la ecuación no se expresenen la misma escala de medida, lo que sísucede en el ML.

(b) El componente aleatorio delModelo Lineal debe distribuirse normal-mente, y este hecho tiene una impor-tancia considerable: según sea la dis-tribución de los errores serán lasdistribuciones condicionadas de losvalores pronosticados del criterio, que,por tanto, deben ser normales también.Esto es así porque ambas distribucionesestán relacionadas a través de una

Page 9: AnálisisdedatosconelModeloLineal Generalizado ... · nemosantesenel ModeloLinealclásico, justificandoasílaubicacióndelprimero. Seguimos con una comparación entre ambos, Modelo

matriz, la matriz hat (ver López-Gon-zález, 1994). En el MLG sucede que elcomponente aleatorio no sigue necesaria-mente una distribución normal sino queutiliza cualquier distribución de lafamilia exponencial y, en consecuencia,las distribuciones de los valores pronosti-cados del criterio no serán normales nece-sariamente (en Wood, 2006, 61 y enFaraway, 2006, 120 pueden consultarselas distintas distribuciones de la familiaexponencial).

(c) Las distribuciones condicionadasde los valores pronosticados de la variablede respuesta en el ML deben ser homos-cedásticas, y ello es posible siempre queesta condición se cumpla en el compo-nente aleatorio. Como en el MLG loserrores pueden seguir cualquier distribu-ción de la familia exponencial, resultaque para la distribución de los errores lahomoscedasticidad no es imprescindible.

(d) Las diferencias expresadas hastaahora obligan a estimar los parámetrosde un MLG con un método de ajuste dis-tinto al procedimiento de mínimos cua-drados que se emplea en el ML: el métodode máxima verosimilitud (que tambiénpuede ser aplicado en el ML).

Destacamos en el Modelo LinealGeneralizado, por tanto, el protagonismode ese tercer elemento que relaciona loscomponentes aleatorio y sistemático, esdecir, el valor esperado y el valor predichopor el modelo: nos referimos a la funciónde enlace g( µ) (un estudio detallado de lanaturaleza de la función de enlace seencuentra en Krzanowski, 1998, 168).Así, por ejemplo, para el caso que presen-

tamos en el próximo apartado con unavariable de respuesta de recuento, elvalor esperado µ sólo puede tomar valoresenteros iguales o superiores a cero, mien-tras que el predictor lineal ŋi puedeadoptar cualquier valor entre – ∞ y + ∞.Esto hace que el valor esperado y el pre-dictor lineal tengan diferentes escalas demedida, precisamente por mediar entreellos dicha función de enlace que terminatransformando el valor de recuento espe-rado a la escala del predictor lineal:g( µi ) = ŋi. La inversa de la función deenlace (o función de transformación) rea-liza el proceso contrario, y al ser aplicadaal resultado del predictor lineal ŋi (quese halla en una escala de – ∞ y + ∞) seobtiene el valor esperado, µ que seencuentra en la escala de la variable derespuesta (Ato y cols., 2005, 8):

µi = g–1(ß0 + ß0Xi).

Regresión de Poisson con RLa regresión de Poisson es el modelo

más básico adecuado para variables derespuesta de recuento (Long, 1997, 217),aunque existen también otras opcionesdentro del Modelo Lineal Generalizadoque pueden adaptarse bien, como elmodelo de regresión binomial negativa(ver Hilbe, 2007), el modelo de regresióntruncada y los modelos de conteo modifi-cados a cero.

Inicialmente la distribución dePoisson comenzó a aplicarse en el estudiode conductas criminales, pero ya desdefinales del siglo pasado pasó a ser unmodelo frecuente en ámbitos como la bio-estadística, la econometría y el marketing(Cameron y Tribedi, 1998, 94), así comoen diversas áreas aplicadas: criminología,

revistaespañola

depedagogía

añoLXIX,nº

248,enero-abril2011,59-80

67

Análisis de datos con el Modelo Lineal Generalizado. Una aplicación con R

Page 10: AnálisisdedatosconelModeloLineal Generalizado ... · nemosantesenel ModeloLinealclásico, justificandoasílaubicacióndelprimero. Seguimos con una comparación entre ambos, Modelo

sociología, ciencia política o relacionesinternacionales (o.c., 17). Un estudio por-menorizado de la regresión de Poissonestá en Agresti (2002); en el entorno de Rhay interesantes ejemplos en Dobson yBarnett (2008, 165 y ss.) y Faraway(2006, 55 y ss.).

El caso que aquí mostramos es unaaplicación sencilla. A partir de un con-junto de datos tomado de Venables yRipley (2003, 446) buscamos llamar laatención sobre el análisis de estos datoscon el modelado estadístico y con la fun-ción probabilística más adecuada. Estasdos inquietudes se resuelven fácilmenteempleando el programa R. Incorporamostambién una solución con el ModeloLineal (regresión clásica con la función deenlace identidad) al objeto de observarbrevemente las ventajas del empleo delModelo Lineal Generalizado de regresiónde Poisson frente al primero.

MétodoSuponiendo que se realiza un sondeo

en diversos Institutos de EnseñanzaSecundaria, se observa el número de Con-flictos o faltas de disciplina que han que-dado registrados en los centros duranteun periodo de trece años, desde 1990 a

2003. El modelo que se especifique debeexplicar el aumento de conflictos con elpaso del tiempo. Se modelan los datosmediante el MLG de regresión dePoisson utilizando la distribución dePoisson como la más adecuada para unavariable de respuesta de recuento (nométrica, categórica) y empleando la fun-ción de enlace logarítmica propia de estemodelo.

Resultados y discusiónEn la Tabla 3 se muestran las ins-

trucciones para que R cree los vectoresnecesarios: Conflictos, que comprende losvalores de recuento, y Año, que contabi-liza un vector de valores de 1 a 13. A con-tinuación se pide el diagrama de disper-sión de las variables Año y Conflictos,etiquetando cada uno de los ejes. El resul-tado se muestra en el Gráfico 1 dondepuede apreciarse que no existe una rela-ción lineal entre esta dos variables: elavance de los años parece relacionarsecon un aumento suavizado de los con-flictos tal que: µi = yy exp(δXi), donde yy y δson parámetros desconocidos, y Xi es elvalor de cada Año. El enlace log para estafunción se encuentra dentro del MLG, asíque podemos especificar el siguientemodelo: log(µi) = log(yy) + δXi = ß0 + ß1Xi).

revista española de pedagogía

año LXIX, nº 248, enero-abril 2011, 5

9-80

68

Emelina LÓPEZ-GONZÁLEZ y Marcos RUIZ-SOLER

TABLA 3: Creación de datos y ejecución del diagrama de dispersión en R

Page 11: AnálisisdedatosconelModeloLineal Generalizado ... · nemosantesenel ModeloLinealclásico, justificandoasílaubicacióndelprimero. Seguimos con una comparación entre ambos, Modelo

Para dar respuesta al ajuste de estosdatos pasamos a estimar los parámetrosde dos modelos de regresión de Poisson.El primero, que denominamos modelonulo (modelo 0 -m0-), responde a unaregresión de Poisson simple. Después cal-cularemos un nuevo modelo más com-pleto: el modelo 1 (m1).

En la Tabla 4 aparece la sencillaorden a ejecutar en R, indicando que esun Modelo Lineal Generalizado (glm), lavariable de respuesta (Conflictos), elpredictor (Año) y el tipo de modelo:poisson.

revista española de pedagogíaaño LXIX, nº 248, enero-abril 2011, 59-80

69

Análisis de datos con el Modelo Lineal Generalizado. Una aplicación con R

GRÁFICO 1: Diagrama de dispersión Conflictos x Año

TABLA 4: Instrucciones y resultados del modelo m0

Page 12: AnálisisdedatosconelModeloLineal Generalizado ... · nemosantesenel ModeloLinealclásico, justificandoasílaubicacióndelprimero. Seguimos con una comparación entre ambos, Modelo

A partir de m0 hemos asumido que elnúmero de Conflictos sigue una distribu-ción de Poisson tal que: yi = Poi (µi), dondeyi es el número observado de nuevos Conflictos en el Año correspondiente. Unavez obtenidos los coeficientes se puedenconstruir los modelos propios de la regre-sión de Poisson:

Primero, el modelo aditivo log(µi) = ß0

+ ß1Xi, que en términos muestrales será:log(mi) = 3.1406+0.2021 x Año. Es impor-tante tener en cuenta que el modelo adi-tivo representa la función de enlace y que,tal y como comentamos arriba, las uni-dades calculadas no se corresponden conla medida de la variable original. Paravolver a los valores originales de lavariable de respuesta se construye elmodelo multiplicativo, que representa lainversa de la función de enlace o funciónde transformación. Es decir, se calcula laexponencial correspondiente, en este casoen base e. Así tenemos mi = e(b0+b1X1), dondesustituimos por los coeficientes esti-mados, resultando: mi = e(3,1406) x e(0,2021Xi).Puede expresarse también la funciónexponencial inversa a la logarítmica, talque:

mi = exp (b0 + b1X1) = exp (3,1406) xexp (0,2021 Xi).

Para proceder a la selección delmodelo retomamos la información de laTabla 4 donde se observa que la discre-pancia (residual deviance) es extremada-mente alta, entendiendo este términocomo una medida de bondad de ajusterelacionada con las diferencias entre los

valores observados y los esperados ogenerados por la regresión (Faraway,2006, 29). La discrepancia dividida porlos grados de libertad suele usarse paradetectar sobre o baja dispersión. En laregresión de Poisson la media y lavarianza son iguales, lo que implica quela discrepancia dividida por los grados delibertad debe aproximarse a uno. Valoresmayores que uno indican sobredispersión(la verdadera varianza es mayor que lamedia); valores menores que uno indicanbaja dispersión (la verdadera varianza esmenor que la media) (López-González ycols., 2002). Tanto un caso como otroinforman de un ajuste inadecuado, comosucede aquí.

Siguiendo con la evaluación delmodelo, resultan preocupantes los grá-ficos de residuos de diagnóstico delmodelo 0 (Gráfico 2). El gráfico de resi-duos frente a valores pronosticadosmuestra cómo los residuos no presentanuna tendencia a la media, lo que refleja elincumplimiento de la condición de inde-pendencia de los errores probablementepor la omisión de algún término impor-tante en el modelo. Recordando el dia-grama de dispersión inicial (Gráfico 1),los Conflictos aumentaban monótona-mente con los Años; esto permite pensarque quizá la introducción de un términocuadrático en el modelo podría mejorarconsiderablemente el ajuste (Wood, 2006,89). Así mismo, en el gráfico de residuosfrente a influencia se aprecian puntos deinfluencia muy elevados en los últimosaños, especialmente para el caso 13 quecorresponde al año 2003.

revista española de pedagogía

año LXIX, nº 248, enero-abril 2011, 5

9-80

70

Emelina LÓPEZ-GONZÁLEZ y Marcos RUIZ-SOLER

Page 13: AnálisisdedatosconelModeloLineal Generalizado ... · nemosantesenel ModeloLinealclásico, justificandoasílaubicacióndelprimero. Seguimos con una comparación entre ambos, Modelo

Construimos, por tanto, un nuevomodelo añadiendo un término cuadrático,el modelo 1 -m1-, de forma que:

log(µi) = ß0 + ß1Xi + ß2Xi2

µi = exp (ß0 + ß1Xi + ß2Xi2).

Siguiendo los resultados de la Tabla 5sustituimos en las expresiones anterioreslos coeficientes, quedando ahora losmodelos aditivo y multiplicativo delmodelo 1 en términos muestrales delsiguiente modo:

log(mi) = 1,9014 + 0,5566 Xi – 0,02135 Xi2

(mi) = exp (1,9014 + 0,5566 Xi – 0,02135Xi

2) = exp (1,9014) x exp (0,5566 Xi

– 0,02135Xi2 )

Al evaluar el nuevo modelo m1 seaprecian cambios importantes en el Grá-fico 3: los residuos manifiestan ahora unatendencia a la media en el gráfico de resi-duos frente a pronósticos, luego la condi-ción de independencia de los erroresparece cumplirse. Igualmente, la disper-sión vertical de los residuos es razonable-mente pequeña y la influencia del caso 13se ha reducido. Los resultados de la Tabla5 reflejan que el modelo m1 se ajustamejor a los datos: la discrepancia residual

revista española de pedagogíaaño LXIX, nº 248, enero-abril 2011, 59-80

71

Análisis de datos con el Modelo Lineal Generalizado. Una aplicación con R

GRÁFICO 2: Diagnóstico del modelo m0

Page 14: AnálisisdedatosconelModeloLineal Generalizado ... · nemosantesenel ModeloLinealclásico, justificandoasílaubicacióndelprimero. Seguimos con una comparación entre ambos, Modelo

revista española de pedagogía

año LXIX, nº 248, enero-abril 2011, 5

9-80

72

Emelina LÓPEZ-GONZÁLEZ y Marcos RUIZ-SOLER

TABLA 5: Instrucciones y resultados para el modelo m1

GRÁFICO 3: Diagnóstico del modelo m1

Page 15: AnálisisdedatosconelModeloLineal Generalizado ... · nemosantesenel ModeloLinealclásico, justificandoasílaubicacióndelprimero. Seguimos con una comparación entre ambos, Modelo

ha disminuido considerablemente, pa -sando de 80.69 a 9.24.

En la representación de los valoresajustados por ambos modelos (Gráficos 4y 5) es fácil distinguir que el modelo m1

revista española de pedagogíaaño LXIX, nº 248, enero-abril 2011, 59-80

73

Actividades Evaluación del desempeño docente

GRÁFICO 4: Ajuste del número de Conflictos con el modelo m0

GRÁFICO 5: Ajuste del número de Conflictos con el modelo m1

Page 16: AnálisisdedatosconelModeloLineal Generalizado ... · nemosantesenel ModeloLinealclásico, justificandoasílaubicacióndelprimero. Seguimos con una comparación entre ambos, Modelo

se ajusta mejor al número de Conflictosobservados que el modelo m0.

Esta conclusión puede reforzarseempleando el test de la razón de verosimi-litud generalizado (Faraway, 2006, 120)que compara las discrepancias que se pro-ducen en ambos modelos, tal que: ∆D =

Dm0 – Dm1 (Tabla 6). ∆D sigue una distri-bución asintótica Chi cuadrado y evalúasi la inclusión de los términos del modelom1 reduce significativamente el valor dediscrepancia con respecto al modelo m0.Como se obtiene un valor de p mínimo(Tabla 6) se puede afirmar que, efectiva-mente, m1 tiene una influencia significa-

revista española de pedagogía

año LXIX, nº 248, enero-abril 2011, 5

9-80

74

Emelina LÓPEZ-GONZÁLEZ y Marcos RUIZ-SOLER

TABLA 6: Resultados del test de razón de verosimilitudes entre m0 y m1

tiva en la disminución de la discrepanciasiendo, por tanto, más adecuado.

Para finalizar el modelado cabríainterpretar el modelo en relación a losvalores obtenidos. Por tal motivo, ademásde transformar los valores de los paráme-tros para obtener su valor en la escala ori-ginal de la variable de respuesta, habríaque estimar sus intervalos de confianza yser interpretados en términos de efectossimples (particularmente en caso de exis-tencia de interacción), finalizando con elcálculo del intervalo de predicción de losvalores de la variable de respuesta.

Siguiendo con nuestro objetivo deanimar al empleo del MLG en las situa-

ciones en que los datos lo requieran, mos-tramos ahora la salida que se obtiene eneste ejemplo con un Modelo Lineal clá-sico: una regresión lineal simple. A estasalturas ya sabemos que no es la soluciónadecuada. Tal y como señala Long (1997,3), las características de una variable derespuesta de recuento son tales que sipara su ajuste se emplea un ModeloLineal con función de enlace identidad,las estimaciones resultantes son inefi-cientes, inconsistentes y sesgadas,aunque, y esto es lo delicado, pueden serde magnitud y significación similares alas obtenidas por la regresión de Poisson.No podemos eludir, por tanto, el exten-dido e incorrecto uso del ML clásico en elámbito de las ciencias humanas en

Page 17: AnálisisdedatosconelModeloLineal Generalizado ... · nemosantesenel ModeloLinealclásico, justificandoasílaubicacióndelprimero. Seguimos con una comparación entre ambos, Modelo

numerosas ocasiones en las que se rela-cionan variables cuantitativas con unafunción de dependencia, y en las que no

se reflexiona suficientemente sobre lamétrica de la variable de respuesta queinterviene.

revista española de pedagogíaaño LXIX, nº 248, enero-abril 2011, 59-80

75

Análisis de datos con el Modelo Lineal Generalizado. Una aplicación con R

TABLA 7: Instrucciones y resultados de la regresión lineal

Así, apoyando el comentario deLong, en la Tabla 7 puede verse que loscoeficientes del modelo de regresiónlineal son significativos. Sin embargo, alobservar los valores pronosticados obte-nidos en la Tabla 8, para el caso 1 (año1991) resulta un número de conflictospronosticado negativo, lo que no debierasuceder con una variable de recuento.

En el Gráfico 6 se aprecia también cómoel ajuste de la recta a los datos no esadecuado, a diferencia de lo que sucedíacon el modelo m1 de la regresión dePoisson (Gráfico 5). La solución con elML es muy forzada. La recta aumenta elvalor de los Conflictos pronosticados enocho de los trece Años considerados, deahí la frecuencia de residuos negativos

Page 18: AnálisisdedatosconelModeloLineal Generalizado ... · nemosantesenel ModeloLinealclásico, justificandoasílaubicacióndelprimero. Seguimos con una comparación entre ambos, Modelo

(Tabla 8). El gráfico de residuos frente avalores ajustados refleja de nuevo unafalta de ajuste de los residuos a la

media, con lo que no se cumple la inde-pendencia de los errores, como tambiénocurría con el modelo m0 (Grafico 7).

revista española de pedagogía

año LXIX, nº 248, enero-abril 2011, 5

9-80

76

Emelina LÓPEZ-GONZÁLEZ y Marcos RUIZ-SOLER

TABLA 8: Valores pronosticados y residuos de la regresión lineal

GRÁFICO 6: Ajuste con el Modelo Lineal

Page 19: AnálisisdedatosconelModeloLineal Generalizado ... · nemosantesenel ModeloLinealclásico, justificandoasílaubicacióndelprimero. Seguimos con una comparación entre ambos, Modelo

En suma, creemos que las razonesseñaladas son importantes para preferirel MLG de regresión de Poisson frente alModelo Lineal clásico respetando lamétrica de los datos del ejemplo que se hadescrito. Esta preferencia del MLG puedehacerse extensible a cualquier situaciónen la que la variable de respuesta no seamétrica. Los argumentos aquí expuestospueden ampliarse con la lectura de Ato ycols. (2005), donde se describen condetalle ejemplos modelando diversassoluciones y empleando también transfor-maciones de los predictores. Son intere-santes, igualmente, las extensiones de la

regresión de Poisson y de las diversasaplicaciones del Modelo Lineal Generali-zado a las soluciones multinivel, así comoa los modelos jerárquicos, modelos adi-tivos y modelos mixtos.

ConclusiónEl Modelo Lineal y el Modelo Lineal

Generalizado son referentes imprescindi-bles actualmente en el análisis de datosde investigaciones que pretenden la expli-cación de fenómenos probabilísticos. Laspeculiaridades matemáticas del MLG queaquí se han descrito le confieren una muyinteresante adaptabilidad a las caracte-

revista española de pedagogíaaño LXIX, nº 248, enero-abril 2011, 59-80

77

Análisis de datos con el Modelo Lineal Generalizado. Una aplicación con R

GRÁFICO 7: Diagnóstico de la regresión lineal

Page 20: AnálisisdedatosconelModeloLineal Generalizado ... · nemosantesenel ModeloLinealclásico, justificandoasílaubicacióndelprimero. Seguimos con una comparación entre ambos, Modelo

rísticas métricas de las variables con lasque se trabaja, lo cual viene a solventar eltratamiento estadístico inadecuado en elanálisis de datos de investigaciones educa-tivas, donde sucede con frecuencia que lasvariables que se registran no cumplen lospresupuestos matemáticos de los modelosestadísticos más tradicionales, como elModelo Lineal o las pruebas de significa-ción estadística. Por otro lado, si unmodelo debe ser, en cualquier caso, unabuena “representación” de la realidad, elmodelado estadístico ofrece el marco ade-cuado para que los criterios de ajuste, par-simonia e integración teórica exigibles almodelo puedan irse conformando.

Ahora bien, las ventajas señaladas nopasarían de ser soluciones teóricas si noexistiera una herramienta que permitieradesarrollar plenamente estas propie-dades. El software R reúne las caracterís-ticas necesarias. El modo de trabajar de Rse adapta fácilmente a la filosofía delmodelado estadístico, así como a las pro-piedades de los modelos de dependenciaestadísticos adaptados a variables nométricas: los Modelos Lineales Generali-zados. Además, desde el ámbito de lasCiencias Sociales es especialmente inte-resante contribuir al cambio de filosofíaque implica el modelado estadístico, asícomo propiciar el empleo de análisis grá-ficos por las numerosas ventajas queaportan. R cumple con estos requisitos enel análisis y explotación de datos, tanto sise trata de técnicas más clásicas, como sise emplean métodos más novedosos.

Dirección para la correspondencia: Emelina LópezGonzález. Departamento de Métodos de Investigación eInnovación Educativa. Facultad de Ciencias de laEducación. Campus de Teatinos. 29071 Málaga. E-mail:[email protected]

Fecha de recepción de la versión definitiva de este artículo:10.X.2010

Notas[1] En el ámbito de las ciencias del comportamiento el

modelado estadístico es denominado también comoenfoque de la comparación de modelos. Textos impres-cindibles que trabajan esta línea son: Judd y McClelland(1989); Krzanowski (1998); Lunneborg (1994) y Max-well y Delaney (2004).

[2] Puede decirse que los grandes atractivos de R son sumodo de trabajar, la participación constante de unacomunidad de investigadores en su desarrollo y su libreacceso en internet.

[3] No deben confundirse los modelos de datos categó-ricos que emplean el procedimiento de estimación pormáxima verosimilitud, como es el caso, con las téc-nicas de análisis de datos categóricos (también lla-madas modelos de datos categóricos) correspon-dientes a los análisis exploratorios multivariantes deinterdependencia cuyo procedimiento de estimación esel de mínimos cuadrados alternantes. Estos últimoscomprenden, fundamentalmente, las contribucionesprocedentes del sistema GIFI, tales como el análisis dehomogeneidad, el análisis de correspondencias y elanálisis de componentes principales no lineal (ver vander Geer, 1993).

BibliografíaAGRESTI, A. (2002) Categorical Data Analysis (2ª ed.) (New

York, Wiley).

ATO, M. y LÓPEZ-GARCÍA, J. J. (1996) Análisis estadísticopara datos categóricos (Madrid, Síntesis).

ATO, M.; LOSILLA, J. L.; NAVARRO, J.; PALMER, A. yRODRIGO, M. (2005) Modelo lineal generalizado(Girona, EAP).

ATO, M. y VALLEJO, G. (2007) Diseños experimentales en Psi-cología (Madrid, Pirámide).

BOCK, R. D. (1985) Multivariate Statistical Methods in Beha-vioural Research (Reprinted. New York, Scientific Soft-ware).

CAMERON, A. y TRIVEDI, P. (1998) Regression Analysis ofCount Data (Cambridge, Cambridge University Press).

CRAWLEY, M. J. (2007) The R Book (Chichester, Wiley &Sons, Ltd).

revista española de pedagogía

año LXIX, nº 248, enero-abril 2011, 5

9-80

78

Emelina LÓPEZ-GONZÁLEZ y Marcos RUIZ-SOLER

Page 21: AnálisisdedatosconelModeloLineal Generalizado ... · nemosantesenel ModeloLinealclásico, justificandoasílaubicacióndelprimero. Seguimos con una comparación entre ambos, Modelo

DRAPER, N. y SMITH, H. (1998) Applied Regression Analysis(3 ed.) (New York, Wiley).

DOBSON, A. J. y BARNETT, A. (2008) An Introduction to Gene-ralized Linear Models (3ª ed.) (Boca Raton, FL.,Chapman and Hall/CRC).

FARAWAY, J. J. (2004) Linear Models with R (Boca Raton, FL.,Chapman & Hall/CRC).

FARAWAY, J. J. (2006) Extending the Linear Model with R. Gene-ralized Linear, Mixed Effects and Nonparametric Regres-sion Models (Boca Raton, FL., Chapman & Hall/CRC).

FOX, J. (1997) Applied Regression Analysis, Linear Modelsand Related Methods (Thousand Oaks, Sage).

FOX, J. (2002) An R and S-PLUS Companion to AppliedRegression (Thousand Oaks, Sage).

HILBE, J. M. (2007) Negative Binomial Regression (Cam-bridge, Cambridge University Press).

HOCKING, R. R. (1985) The Analysis of Linear Models (Mon-terey, CA, Brooks/Cole).

HORTON, R. L. (1985) The General Linear Model: DataAnalysis in the Social and Behavioural Sciences.(Reprinted. Malabar, FL., Robert E. Krieger).

HUTCHESON, G. y SOFRONIOU, N. (1999). The MultivariateSocial Scientist: Introductory Statistics Using Genera-lized Linear Models (London, Sage).

JUDD, C. M. y McCLELLAND, G. H. (1989) Data Analysis. AModel-Comparison Approach (San Diego, HarcourtBrace Jovanovich).

KLEINBAUM, D. G.; KUPPER, L. L. y MULLER, K. E. (1988)Applied Regression Analysis and other Multivariable Met-hods (2ª ed.) (Boston, Pws-Kent).

KRZANOWSKI, W. J. (1998) An Introduction to StatisticalModelling (London, Arnold).

LONG, J. S. (1997) Regression Models for Categorical andLimited Dependent Variables (Thousand Oaks, CA, Sage).

LÓPEZ-GONZÁLEZ, E. (1994) La importancia del estudio deresiduos para el análisis de las condiciones de aplica-ción de la regresión, Bordón, 46:1, pp. 53-68.

LÓPEZ-GONZÁLEZ, E. (2003) Las pruebas de significación:una polémica abierta, Bordón, 55:2, pp. 241-252.

LÓPEZ-GONZÁLEZ, E.; RUIZ-SOLER, M. y PELEGRINA, M.(2002) Estimación de parámetros en el Modelo LinealGeneral y en los Modelos Lineales Generalizados. Dife-rencias e interpretación, Metodología de las Cienciasdel Comportamiento, vol. especial, pp. 341-345.

LOSILLA, J. L.; NAVARRO, J. B.; PALMER, A.; RODRIGO, M. yATO, M. (2005) Del contraste de hipótesis al modeladoestadístico (Girona, EAP).

LUNNENBORG, C. E. (1994) Modelling Experimental andObservational Data (California, Duxbury).

MAXWELL, S. E. y DELANEY, H. D. (2004) Designing Experi-ments and Analyzing Data. A Model Comparison Pers-pective (2ª ed.) (Hillsdale, Lawrence Erlbaum Associates).

McCLELLAND, G. H. (1997) Optimal Design in PsychologicalResearch, Psychological Methods, 2:1, pp. 3-19.

MCCULLAGH, P. y NELDER, J. (1989) Generalized LinearModels (2 ed.) (London, Chapman & Hall).

NELDER, J. y WEDDERBURN, R. (1972) Generalized LinearModels, Journal of the Royal Statistical Society (A), 135,pp. 370-384.

NETER, J.; KUTNER, M. H.; NACHTSHEIM, C. J. y WAS-SERMAN, W. (1996) Applied Linear Statistical Models(4ª ed.) (Chicago, Irwin).

PEDHAZUR, E. J. (1997) Multiple Regression in BehaviouralResearch: Explanation and Prediction (3ª ed.) (NewYork, Holt, Rinehart & Winston).

RUIZ-SOLER, M. y LÓPEZ-GONZÁLEZ, E. (2009) El entornoestadístico R: ventajas de su uso en la docencia y lainvestigación, revista española de pedagogía,67:243, pp. 255-274.

RUIZ-SOLER, M.; PELEGRINA, M. y LÓPEZ-GONZÁLEZ, E.(2000) Modelización matemática y análisis de varianza:el enfoque de la comparación de modelos, en LÓPEZ,A. M.; LÓPEZ, J. y MORENO, R. (coords.) A.E.M.C.C.O:V Congreso de Metodología de las CC. Humanas ySociales, vol. 1 (Sevilla, Kronos), pp. 361-365.

SEBER, G. A. F. y LEE, A. J. (2003) Linear RegressionAnalysis (2ª ed.) (New York, Wiley).

TATSUOKA, M. (1993) Elements of the General Linear Model,en KEREN, G. y LEWIS, C. A Handbook for Data Analysisin the Behavioural Sciences. Statistical Issues (London,LEA), pp. 3-42.

revista española de pedagogíaaño LXIX, nº 248, enero-abril 2011, 59-80

79

Análisis de datos con el Modelo Lineal Generalizado. Una aplicación con R

Page 22: AnálisisdedatosconelModeloLineal Generalizado ... · nemosantesenel ModeloLinealclásico, justificandoasílaubicacióndelprimero. Seguimos con una comparación entre ambos, Modelo

TIMM, N. H. (2002) Applied Multivariate Analysis (New York,Springer).

VAN DER GEER, J. P. (1993) Multivariate Analysis of Catego-rical Data: Applications (Newbury Park, CA, Sage).

VENABLES, W. N. y RIPLEY, B. D. (2003) Modern Applied Sta-tistics with S (4ª ed.) (New York, Springer-Verlag).

WEISBERG, S. (2005) Applied Linear Regression (3 ed.) (NewYork, Wiley).

WOOD, S. N. (2006) Generalized Additive Models. An Intro-duction with R (Boca Raton, FL., Chapman & Hall/CRC).

Resumen:Análisis de datos desde el ModeloLineal Generalizado. Una aplicacióncon R

El empleo de modelos matemáticospara la explicación de fenómenos probabi-lísticos ha sido imprescindible en lainvestigación científica. No obstante, enel ámbito educativo es frecuente trabajarcon variables que no cumplen las caracte-rísticas requeridas por el Modelo Lineal(ML), utilizado durante mucho tiempocomo única opción para representar datosde dependencia; por el contrario, elModelo Lineal Generalizado (MLG) res-ponde muy adecuadamente a los pro-blemas generados por la métrica de lasvariables. En este trabajo se comentan losaspectos particulares del MLG en rela-ción al ML dentro del entorno en el quecobran sentido ambos: el modelado esta-dístico. Así mismo se anima al uso delsoftware estadístico R, poco conocido en elámbito de los estudios educativos, peroespecialmente sensible a las particulari-dades matemáticas del Modelo LinealGeneralizado y al modo de trabajar con elmodelado estadístico.

Descriptores: Modelo Lineal Generali-zado, Modelo Lineal, regresión dePoisson, modelado estadístico, R.

Summary:Data analysis from the GeneralizedLinear Model approach: an applica-tion using R

To use mathematical models in orderto explain probabilistic phenomena havebeen essential in scientific research.However, in educational settings iscommon to work with variables which donot satisfy the demanded assumptions inthe Linear Model (LM). The GeneralizedLinear Model (GLM) answers quite wellto the problems originated by measure-ment variable questions. In this worksome aspects of the GLM are commentedin relation to the LM and this is donefrom the framework where both of themmake sense: statistical modelling.Besides, the use of statistical software Ris emphasized because this one is notvery much known in educational rese-arch. However, this software is veryappropriate for the GLM and for the wor-king style in statistical modelling.

Key Words: Generalized Linear Model,Linear Model, Poisson regression, statis-tical modelling, R.

revista española de pedagogía

año LXIX, nº 248, enero-abril 2011, 5

9-80

80

Emelina LÓPEZ-GONZÁLEZ y Marcos RUIZ-SOLER