10
Claudia Jiménez R Universidad Nacional de Colombia 1 Análisis de Regresión Lineal Múltiple El Análisis de Regresión es una técnica estadística para la detección y el modelado de relaciones entre dos o más variables. Incluye un conjunto de técnicas univariantes y multivariantes que permiten encontrar modelos descriptivos o predictivos, a partir de las relaciones observadas en una colección de datos que suele denominarse la muestra de aprendizaje o de entrenamiento. Una gran ventaja del análisis de regresión multivariante lo constituye que las variables sobre las cuales se deseen establecer relaciones pueden ser cuantitativas, categóricas o simultáneamente de ambos tipos (Pérez, 2004). Para el manejo de variables categóricas, nominales u ordinales, se requiere el uso de variables indicadoras o de diseño (dummy, en inglés) y, en algunos casos, de algunas transformaciones para realizar el análisis. En la Regresión Lineal Múltiple, se admite que un atributo o variable Y cualquiera puede ser o explicada por una combinación lineal de otras variables X. La forma general del modelo, es: 1 1 2 2 1 1 0 ... p p X X X Y (1) En (1), cada variable j X , para j desde 1 hasta p-1, representa una variable independiente o explicativa de Y, la variable respuesta o dependiente. Los j son los parámetros del modelo llamados coeficientes parciales de regresión. Cada j , significa el cambio en el valor esperado de la variable dependiente o explicada E(Y), por una unidad de incremento en j X , cuando las demás variables independientes incluidas en el modelo, permanecen constantes. Si el alcance del modelo admite que el valor para todas las variables independientes pueda ser cero, el parámetro 0 indica el valor esperado de Y cuando todas las j X toman ese valor. En caso contrario, no tiene significado como término separado en el modelo de regresión. En la ecuación, el término , está representando una componente aleatoria que representada la variabilidad en Y que no es explicada por las variables independientes consideradas y que puede ser debida a la naturaleza misma de la variable bajo estudio, por los errores cometidos en las mediciones o por cualquier otra fuente de imperfección en los datos observados. El Modelo de Regresión Múltiple, por su método de ajuste, está restringido al cumplimiento de los siguientes supuestos (Neter y otros, 2001): a) Las variables explicativas o predictivas del modelo deben ser linealmente independientes. Es decir, no debe ser posible que una variable independiente sea explicada por una combinación lineal de las otras. b) Los términos de error o las perturbaciones del modelo deben distribuirse con media cero, varianza constante y ser independientes entre sí. Es claro que el supuesto a) no es difícil de cumplir, por la minimalidad deseable en cualquier modelo. Tampoco lo es admitir que los errores se distribuyan de la manera especificada en el literal b). Si así no ocurriera, podría ser síntoma de que faltan variables independientes por incluir o que las incluidas no son muy apropiadas para explicar la variable respuesta. Por esto, siempre es

Análisis de Regresión Lineal Múltiple¡lisis+de... · Como en el modelo de Regresión Lineal Múltiple se supone ... ajuste con el fin de poderlo utilizar para ... Cuando damos

  • Upload
    vunhi

  • View
    301

  • Download
    0

Embed Size (px)

Citation preview

Page 1: Análisis de Regresión Lineal Múltiple¡lisis+de... · Como en el modelo de Regresión Lineal Múltiple se supone ... ajuste con el fin de poderlo utilizar para ... Cuando damos

Claudia Jiménez R Universidad Nacional de Colombia 1

Análisis de Regresión Lineal Múltiple

El Análisis de Regresión es una técnica estadística para la detección y el modelado de relaciones

entre dos o más variables. Incluye un conjunto de técnicas univariantes y multivariantes que

permiten encontrar modelos descriptivos o predictivos, a partir de las relaciones observadas en una

colección de datos que suele denominarse la muestra de aprendizaje o de entrenamiento. Una gran

ventaja del análisis de regresión multivariante lo constituye que las variables sobre las cuales se

deseen establecer relaciones pueden ser cuantitativas, categóricas o simultáneamente de ambos tipos

(Pérez, 2004). Para el manejo de variables categóricas, nominales u ordinales, se requiere el uso de

variables indicadoras o de diseño (dummy, en inglés) y, en algunos casos, de algunas

transformaciones para realizar el análisis.

En la Regresión Lineal Múltiple, se admite que un atributo o variable Y cualquiera puede ser o

explicada por una combinación lineal de otras variables X. La forma general del modelo, es:

1122110 ... pp XXXY (1)

En (1), cada variable jX , para j desde 1 hasta p-1, representa una variable independiente o

explicativa de Y, la variable respuesta o dependiente. Los j son los parámetros del modelo

llamados coeficientes parciales de regresión. Cada j , significa el cambio en el valor esperado de

la variable dependiente o explicada E(Y), por una unidad de incremento en jX , cuando las demás

variables independientes incluidas en el modelo, permanecen constantes. Si el alcance del modelo

admite que el valor para todas las variables independientes pueda ser cero, el parámetro 0 indica

el valor esperado de Y cuando todas las jX toman ese valor. En caso contrario, no tiene significado

como término separado en el modelo de regresión. En la ecuación, el término , está representando

una componente aleatoria que representada la variabilidad en Y que no es explicada por las

variables independientes consideradas y que puede ser debida a la naturaleza misma de la variable

bajo estudio, por los errores cometidos en las mediciones o por cualquier otra fuente de

imperfección en los datos observados.

El Modelo de Regresión Múltiple, por su método de ajuste, está restringido al cumplimiento de

los siguientes supuestos (Neter y otros, 2001):

a) Las variables explicativas o predictivas del modelo deben ser linealmente independientes.

Es decir, no debe ser posible que una variable independiente sea explicada por una

combinación lineal de las otras.

b) Los términos de error o las perturbaciones del modelo deben distribuirse con media cero,

varianza constante y ser independientes entre sí.

Es claro que el supuesto a) no es difícil de cumplir, por la minimalidad deseable en cualquier

modelo. Tampoco lo es admitir que los errores se distribuyan de la manera especificada en el literal

b). Si así no ocurriera, podría ser síntoma de que faltan variables independientes por incluir o que

las incluidas no son muy apropiadas para explicar la variable respuesta. Por esto, siempre es

Page 2: Análisis de Regresión Lineal Múltiple¡lisis+de... · Como en el modelo de Regresión Lineal Múltiple se supone ... ajuste con el fin de poderlo utilizar para ... Cuando damos

Claudia Jiménez R Universidad Nacional de Colombia 2

recomendable verificar el cumplimiento de los supuestos del Modelo de Regresión Múltiple,

mediante el análisis de los residuales y la detección de valores atípicos en ellos (outliers, en inglés)

o mediante pruebas de independencia. Cuando los supuestos no se cumplen es posible aplicar

medidas remediales, en la mayoría de los casos.

El problema central del Análisis de Regresión Múltiple, como es de suponerse, consiste en

encontrar la fórmula algebraica del modelo de regresión de un caso particular. Esto es, hallar las

mejores estimaciones de los parámetros o coeficientes de regresión parcial, utilizando los datos

observados (la muestra de entrenamiento). La fórmula matemática derivada en la minería de estos

datos, es un modelo descriptivo que informa cómo pesan o influyen las variables independientes

consideradas en la variable de respuesta, de manera cuantitativa. También, sirve para inferir o

predecir cuál sería el valor esperado de la variable de respuesta, E(Y), para nuevos ejemplares o con

distintos valores en las variables independientes.

En el proceso de optimización para determinar los estimadores de los parámetros, se utiliza una

función de pérdida como una medida de ajuste del modelo matemático a los datos reales. Se puede

elegir entre estimadores de los parámetros que minimicen lo malo del ajuste o que maximicen la

bondad del ajuste. Gauss propuso estimar los parámetros minimizando la suma de los cuadrados de

las desviaciones o las diferencias entre los valores observados y los ajustados con el modelo de

regresión, técnica que se conoce como el Método de Mínimos Cuadrados (Hair y otros, 1999).

También podría maximizarse la suma de cuadrados debida a la regresión. Pero un modelo de

regresión, donde los errores se distribuyan normalmente, estos dos métodos coinciden, por el

teorema de Gauss-Markov, y los estimadores de los parámetros tienen las propiedades de ser

insesgados (la media de las estimaciones para diferentes muestras tenderá hacia el parámetro

desconocido), consistentes (conforme crece el tamaño muestral, la estimación se aproxima al

parámetro desconocido) y suficientes (aprovechan toda la información que proporciona la muestra)

(Placket, 1950).

Para presentar los estimadores de los coeficientes de regresión parcial, por Mínimos Cuadrados,

sea:

1210 ,...,, p un vector de dimensión px1 que representa los coeficientes de

regresión o parámetros.

1321 ,...,,, pXXXX1X una matriz de dimensión n p con las constantes o valores de las

p variables independientes en los objetos observados o medidos. Las filas de la matriz

representan las n- tuplas o ejemplares en la muestra de aprendizaje.

nYYYYY ,...,, 321 un vector de dimensión n 1 con los valores de la variable respuesta o

dependiente, para cada tupla u observación.

= ,1( 2 … n ) un vector de dimensión n 1 con los valores de las componentes o

perturbaciones aleatorias de cada observación.

Con esa notación matricial, la ecuación (1) se puede escribir, en forma resumida, así:

Page 3: Análisis de Regresión Lineal Múltiple¡lisis+de... · Como en el modelo de Regresión Lineal Múltiple se supone ... ajuste con el fin de poderlo utilizar para ... Cuando damos

Claudia Jiménez R Universidad Nacional de Colombia 3

Y = βX + ɛ (2)

Como en el modelo de Regresión Lineal Múltiple se supone que el valor esperado de la

distribución de los errores o residuales E( ) = 0, y tanto las variables X como los coeficientes de

regresión son constantes conocidas, luego:

E(Y) = βX

Por lo tanto, es natural estimar la función Y=f(x) como:

X Y

Donde

Y (leído Y gorro) es el valor de la función de regresión estimada considerando los valores

o niveles de X en la colección de datos y dadas los estimaciones de los coeficientes

1210ˆ,...ˆ,ˆ,ˆ'ˆ

p . Los estimadores, por mínimos cuadrados, se calculan así:

YXXX ')'('ˆ 1

Después de derivar un modelo de regresión múltiple particular, se debe validar la bondad del

ajuste con el fin de poderlo utilizar para describir o predecir valores no sólo futuros, sino para otros

valores en las variables independientes no observados o medidos. Cuando hay suficientes datos, se

utiliza un subconjunto de ellos, no considerados en el ajuste, para evaluar la capacidad predictiva

del modelo. En otros casos, sólo es posible verificar el grado de cumplimiento de los supuestos

impuestos al modelo de Regresión Lineal Múltiple para luego determinar la significación estadística

de las variables explicativas, de manera global y parcial. Para determinar la significación estadística

de manera global de todas las variables se utiliza como estadístico de la prueba a Fc que se

distribuye teóricamente como una F con n-1 y p-1 grados de libertad. Para las pruebas de

significación de variables independientes de manera marginal se utiliza como estadístico el

estadístico Zc.

Debe señalarse que un modelo de regresión múltiple es lineal, no por una restricción impuesta

sobre las variables que pueden explicar a Y, sino por la linealidad en los parámetros o coeficientes

del modelo de regresión; por eso éstos deben aparecer en su primera potencia. Los paquetes

estadísticos ofrecen, varias alternativas de transformación de las variables independientes, como x

2, ex o x para ser aplicables antes de realizar un análisis de regresión, si es el caso.

Análisis de Regresión Simple en Matlab

En el siguiente ejemplo, para hacer el análisis de regresión simple, se carga el archivo de datos llamado

“carsmall” que contiene algunas características de 100 autos. Al cargar el archivo, el sistema crea la variable

de tipo matriz X con las variables Horsepower (potencia o caballos de fuerza) y Cylinders (el número de

Page 4: Análisis de Regresión Lineal Múltiple¡lisis+de... · Como en el modelo de Regresión Lineal Múltiple se supone ... ajuste con el fin de poderlo utilizar para ... Cuando damos

Claudia Jiménez R Universidad Nacional de Colombia 4

cilindros). Se trata entonces de explicar el rendimiento del vehiculo (MPG) por medio del potencia del

vehículo.

Primero queremos visualizar gráficamente la relación entre estas variables:

load carsmall

X= Horsepower

Y = MPG

plot(X,Y, 'o') -- la o entre comillas simples sirve para que el diagrama no muestre líneas entre los puntos

Cuando damos el último comando se abre la interfaz de la Figura 1. En ella vemos que existe una relación

inversa entre la potencia con el rendimiento de los autos. Esto significa que a medida que aumenta la

potencia, disminuye el renidimiento o las millas por galón. Para el ajuste de los datos a un modelo particular,

del menú “Tools” se escoge la opción “Basic fitting”.

Figura 1. Resultado del comando “plot”

En la Figura 2, vemos dos modelos ajustados a los datos: el modelo lineal y el cuadrático o de segundo orden

en la variable X. Alli se observa que se ha chuleado la opción de mostrar las ecuaciones en la gráfica. En el

menú “tools” de la gráfica también es posible editar la figura para agregar las leyendas y títulos apropiados.

En la interfaz del ajuste básico, es posible continuar con la presentación de más información, incluida la

norma de los residuales, un indicador de la calidad del ajuste. En nuestro ejemplo, de acuerdo con este

indicador, el modelo que mejor se ajusta es el cuadrático, como se muestra en la Figura 3.

Page 5: Análisis de Regresión Lineal Múltiple¡lisis+de... · Como en el modelo de Regresión Lineal Múltiple se supone ... ajuste con el fin de poderlo utilizar para ... Cuando damos

Claudia Jiménez R Universidad Nacional de Colombia 5

Figura 2. Ajuste básico de modelos

Figura 3. Ajuste básico de modelos

Análisis de Regresión Múltiple en Matlab

En el siguiente ejemplo, para hacer el análisis de regresión, se carga el archivo de datos llamado “carsmall”

que contiene algunas características de 100 autos. Al cargar el archivo, el sistema crea la variable de tipo

matriz X con las variables Horsepower (potencia o caballos de fuerza) y Cylinders (el número de cilindros).

Page 6: Análisis de Regresión Lineal Múltiple¡lisis+de... · Como en el modelo de Regresión Lineal Múltiple se supone ... ajuste con el fin de poderlo utilizar para ... Cuando damos

Claudia Jiménez R Universidad Nacional de Colombia 6

Se trata entonces de explicar el rendimiento del vehiculo (MPG) por medio del cilindraje y la potencia con el

método “regress”:

load carsmall

X = [ones(size(Horsepower)) Horsepower Cylinders];

--la primera componente es para

--agregar una columna de unos

betagorro = regress(MPG,X) –- devuelve los coeficientes estimados

betagorro =

44.2562 (Intercepto o Beta cero -0.0572

-2.5836

La función “regstats” también permite realizar un análisis de regresión lineal múltiple y calcula más

estadísticas de regresión. De forma predeterminada, regstats agrega automáticamente una primera columna de

unos a la matriz de diseño (necesaria para calcular la estadística F y el valor-p de la prueba), por lo que no se

debe incluir de forma explícita un término constante como en la función regress. Por ejemplo:

X1 = [Horsepower Cylinders];

stats = regstats(MPG,X1);

Crea una variable de tipo estructura, con las estadísticas de regresión. Por tanto, en el área de trabajo se

encontrarán los siguientes ítems calculados:

Un argumento de entrada opcional a la función “regstats” permite especificar cuáles estadísticas se deben

calcular, en lugar de todas las anteriores. Para especificar de forma interactiva las estadísticas calculadas, se

invoca a regstats sin argumentos de salida, como aparece a continuación.

regstats(MPG,X1)

Abre la interfaz siguiente:

Page 7: Análisis de Regresión Lineal Múltiple¡lisis+de... · Como en el modelo de Regresión Lineal Múltiple se supone ... ajuste con el fin de poderlo utilizar para ... Cuando damos

Claudia Jiménez R Universidad Nacional de Colombia 7

En esta interfaz, se seleccionan las casillas correspondientes a las estadísticas que desean calcular. Las

estadísticas seleccionadas se retornan mediante variables al área de trabajo (Workspace) de MATLAB. Los

nombres de las variables para las estadísticas que aparecen en la parte derecha de la interfaz, se puede cambiar

a cualquier nombre de variable válida en MATLAB.

El mensaje después de dar el anterior comando es: “Variables have been created in the current workspace”.

Por lo tanto, ya podemos consultar los valores de esas variables, por ejemplo:

>> beta

beta =

44.2562

-0.0572

-2.5836

Tabulación de estadísticas de diagnóstico en el análisis de regresión

La función regstats calcula las estadísticas que se utilizan normalmente en el diagnóstico de la regresión. Las

estadísticas pueden presentarse en formato tabular, de una gran variedad de maneras. Por ejemplo, el campo

tstat de la estructura de regstats es en sí mismo una estructura que contiene las estadísticas relacionadas con

Page 8: Análisis de Regresión Lineal Múltiple¡lisis+de... · Como en el modelo de Regresión Lineal Múltiple se supone ... ajuste con el fin de poderlo utilizar para ... Cuando damos

Claudia Jiménez R Universidad Nacional de Colombia 8

los coeficientes estimados de la regresión. El tipo de datos conocido como arreglos de conjuntos de datos

(Dataset Arrays) proporcionan un formato tabular natural para la información:

>> TablaCoef = dataset({tstat.beta,'Coef'},{ tstat.se,'ErrStd'},{ tstat.t,'tStat'},{tstat.pval,'Valor_p'})

TablaCoef =

Coef ErrStd tStat Valor_p

44.256 1.4917 29.667 3.0014e-048

-0.057171 0.019148 -2.9858 0.0036427

-2.5836 0.49499 -5.2194 1.1437e-006

Interpretando estos resultados podemos decir que por el valor p de las pruebas marginales que se basan en la

estadística t calculada (y que se distribuye como un t de Student con 97= 100-3 grados de libertad) se puede

rechazar la hipótesis nula. Esto es, todos los coeficientes son estadísticamente significativos y por lo tanto, las

millas por galón si pueden ser explicadas por el modelos de regresión.

¿Cuál es la estimación del coeficiente de determinación múltiple?

>> rsquare

rsquare =

0.7271

Este último resultado significa que aproximadamente un 72% de la variabilidad en las millas por galón

(MPG) es explicada por la inclusión del cilindraje y la potencia en el modelo de regresión.

La función fprintf de MATLAB, similar a la del lenguaje C, permite cambiar al formato de tabla. Por

ejemplo, el campo fstat de la estructura de regstats es una estructura con las estadísticas relacionadas con el

análisis de varianza (ANOVA) de la regresión. Los siguientes comandos producen la tabla ANOVA de una

regresión estándar:

fprintf('Tabla de Análisis de la Varianza (ANOVA)');

fprintf('\n\n')

fprintf('%6s','Fuente');

fprintf('%10s','gdl','SC','CM','F','Valor P');

fprintf('\n')

fprintf('%6s','Regr');

fprintf('%10.4f',fstat.dfr,fstat.ssr,fstat.ssr/fstat.dfr,fstat.f,fstat.pval);

fprintf('\n')

fprintf('%6s','Error');

fprintf('%10.4f', fstat.dfe, fstat.sse, fstat.sse/ fstat.dfe);

fprintf('\n')

fprintf('%6s','Total');

fprintf('%10.4f', fstat.dfe+ fstat.dfr, fstat.sse+ fstat.ssr);

fprintf('\n')

Para mostrar los datos, así:

Tabla de Análisis de la Varianza (ANOVA)

Page 9: Análisis de Regresión Lineal Múltiple¡lisis+de... · Como en el modelo de Regresión Lineal Múltiple se supone ... ajuste con el fin de poderlo utilizar para ... Cuando damos

Claudia Jiménez R Universidad Nacional de Colombia 9

Fuente gdl SC CM F Valor P

Regr 2.0000 4366.0455 2183.0227 119.8941 0.0000

Error 90.0000 1638.7126 18.2079

Total 92.0000 6004.7581

Análisis de Correlación en Rattle

El análisis de correlación indica si dos variables están relacionadas en forma lineal. Este análisis

sólo es para variables numéricas. Hay tres métodos disponibles para hallar la correlación: Pearson,

Spearman, Kendall. En este caso se utilizará el de Pearson y se activará la opción “Organizado”

para que organice las variables según la fortaleza de correlación. El resultado se muestra a

continuación en la Figura 3.

Figura 3. Resultado de un análisis correlación.

Si el coeficiente es igual a 1 existe una correlación positiva perfecta, es decir hay una relación lineal

perfecta, entre las variables. Cuando una de ellas aumenta la otra también lo hace, en proporción

constante.

Si 0 < coeficiente < 1, existe una correlación positiva.

Si es igual a cero, no existe relación lineal.

Si -1 < coeficiente < 0, existe una correlación negativa.

Si es igual a -1, existe una correlación negativa perfecta, es decir hay una relación inversa entre las

variables, cuando una de ellas aumenta la otra disminuye en proporción constante.

El resultado del análisis de correlación también viene acompañado de una gráfica, la cual se

muestra a continuación en la Figura 4.

Page 10: Análisis de Regresión Lineal Múltiple¡lisis+de... · Como en el modelo de Regresión Lineal Múltiple se supone ... ajuste con el fin de poderlo utilizar para ... Cuando damos

Claudia Jiménez R Universidad Nacional de Colombia 10

Figura 4. Gráfico de correlación.

El grado de correlación se interpreta según la forma y el color de los elementos en la gráfica. Si el

elemento es un círculo perfecto no hay correlación entre las variables. Cada variable está

perfectamente correlacionada con ella misma, la perfecta correlación se representa con una línea

diagonal. El color rojo indica correlación negativa, el azul positiva y entre más intenso sea el color

es mayor la correlación. [3]

Análisis de Regresión en Rattle

Rattle ofrece la posibilidad de generar diferentes tipos de regresión, a continuación se hará una

breve descripción de cada uno de las opciones ofrecidas por este paquete. Cada una de estas

regresiones se acompaña de un diagrama.

Figura 5. Interfaz para realizar regresiones.

Numérica: este es el tipo regresión lineal tradicional y es apropiado cuando la variable de

destino es numérica y continua.