60
1 2011 UNED DISEÑOS DE INVESTIGACIÓN Y ANÁLISIS DE DATOS [TEMA 8] Análisis de Regresión Lineal Simple y Múltiple

[TEMA 8] Análisis de Regresión Lineal Simple y Múltiple

Embed Size (px)

Citation preview

Page 1: [TEMA 8] Análisis de Regresión Lineal Simple y Múltiple

1

2011

UNED

DISEÑOS DE INVESTIGACIÓN Y ANÁLISIS DE DATOS

[TEMA 8]

Análisis de Regresión Lineal Simple y Múltiple

Page 2: [TEMA 8] Análisis de Regresión Lineal Simple y Múltiple

2

Índice

8.1 Introducción ...................................................................................................................................... 3

8.2 Objetivos ........................................................................................................................................... 4

8.3 Análisis de Regresión Simple ............................................................................................................. 4

8.3.1 Coeficientes de la regresión lineal simple .................................................................................. 8

8.3.2 Bondad de Ajuste de la Recta de Regresión............................................................................. 12

8.3.3 Inferencias sobre la regresión .................................................................................................. 16

8.3.3.1 Contraste sobre la correlación/regresión ......................................................................... 16

8.3.3.2 Intervalo de confianza (IC) para rXY ................................................................................... 20

8.3.3.3 Contraste para los coeficientes de la regresión, B y B0 ..................................................... 21

8.3.3.4 Intervalo de Confianza para los coeficientes de regresión, B y B0 .................................... 23

8.3.3.5 Intervalo de Confianza los valores estimados Y’ ............................................................... 25

8.3.4 Precisión de las estimaciones de los parámetros ρ, β, y β0 y su relación con el tamaño

muestral .....................................................................................................¡Error! Marcador no definido.

8.4 Análisis de Regresión Múltiple ........................................................................................................ 30

8.4.1 Regresión con dos Variables Independientes .......................................................................... 30

8.4.2 Ajuste del modelo. Medidas de asociación .............................................................................. 34

8.4.3 Correlación Semiparcial y Parcial ............................................................................................. 37

8.4.4 Inferencias sobre la Regresión Múltiple ................................................................................... 42

8.5 Ejercicio práctico ............................................................................................................................. 44

8.5.1 Resultados ................................................................................................................................ 49

8.5.2 Método Stepwise (Pasos Sucesivos) ........................................................................................ 51

8.6 Resumen .......................................................................................................................................... 55

8.7 Ejercicio de Autoevaluación ............................................................................................................ 56

8.7.1 Preguntas ................................................................................................................................. 57

8.7.2 Solución ejercicios de autoevaluación ..................................................................................... 58

Page 3: [TEMA 8] Análisis de Regresión Lineal Simple y Múltiple

3

8.1 Introducción

Como se explica en el libro de Fundamentos de Investigación, “los diseños ex post facto se

caracterizan porque el investigador no puede manipular intencionalmente la variable independiente, ni

asignar aleatoriamente a los participantes a los diferentes niveles de la misma … en estos diseños, el

investigador selecciona a los sujetos en función de que posean o no determinadas características”. Uno

de los procedimientos de análisis más empleados para este tipo de diseños es el que se conoce como

Análisis de Regresión/Correlación. Este procedimiento analítico puede ser usado siempre que una

variable cuantitativa, en este caso la Variable Dependiente (VD), sea estudiada como una función de una

variable, o de una combinación de varias Variables Independientes1 (VI). Cuando se estudia la VD en

función de una sola VI este análisis se conoce como Análisis de Regresión Simple (ARS). Cuando hay más

de una VI se conoce como Análisis de Regresión Múltiple (ARM).

La forma de la relación entre la VD y la VI puede ser muy diversa. En el caso del ARS se pueden dar

relaciones lineales, exponenciales, potenciales, polinómicas, etc. En este texto únicamente vamos a

tratar las relaciones de carácter lineal, es decir, aquellas en las que la VD se puede expresar como una

función de la VI elevada a la primera potencia. Lo mismo sucede con las relaciones que se pueden dar en

el ARM, pero sólo estudiaremos el caso en el que la VD se puede expresar como una combinación lineal

de varias VI`s.

Aunque el ARM es una técnica de análisis para los diseños ex post facto, también se puede aplicar a

situaciones en las que se manipulan condiciones experimentales. Por tanto, las variables independientes

pueden tener una ocurrencia natural (sexo, Cociente Intelectual, tiempo que se tarda en aprender una

lista de palabras, introversión, ansiedad, etc.), o pueden ser variables manipuladas en un laboratorio. En

resumen, “casi cualquier información que tenga interés para el estudio de la VD puede ser objeto de

incorporación en este tipo de análisis”2.

El Análisis de Regresión tiene una amplitud de aplicación de gran alcance. Se emplea para contrastar

hipótesis generadas en el ámbito de las ciencias de la conducta, de la salud, de la educación, etc. Estas

hipótesis pueden llegar por la vía de una teoría formal, por investigaciones previas o simplemente por

algún tipo de intuición científica acerca de algún fenómeno. Una lista breve de hipótesis sobre

determinadas situaciones puede dar idea del alcance de esta técnica de análisis:

• El estrés en la vida cotidiana puede estar relacionado con la cantidad de días que las personas

causan baja laboral por enfermedad.

• Cuando, para una política educativa racional, se quiere compara el rendimiento educativo en

función de si los estudiantes estudian en colegios públicos o privados, es necesario el control

estadístico de determinadas características, tales como el CI, logros académicos previos,

1 Al igual que en los capítulos de Diseños de más de dos grupos, en este capítulo designaremos la variable

dependiente por Y, mientras que las variables independientes las designaremos como Xi, siendo i = 1,….,n, según el

número de variables independientes que se incorporen en el ARM.

2 Cohen, J, Cohen, P. , West, S. G.y Aiken, L. S. Applied Multiple Regression/Correlation. Analysis for the

Behavorial Sciences. 3ª Ed. Lawrence Erlbaum Assoc. N, Jersey, 2003.

Page 4: [TEMA 8] Análisis de Regresión Lineal Simple y Múltiple

4

formación académica de los padres, nivel de ingresos familiares, etc., porque pueden explicar el

rendimiento más que el tipo de escuela.

• La ejecución de una tarea está relacionado con el nivel de activación de las personas, y la

relación tiene una forma de U invertida (esta relación se conoce en el ámbito de la psicología

experimental como la “Ley de Yerkes y Dodson”)

Cada una de estas hipótesis plantea una relación entre una o más variables explicativas (VI´s) y la

variable dependiente (VD) objeto de estudio y, por consiguiente, todas ellas pueden ser contrastadas

mediante Análisis de Regresión.

En este capítulo vamos a estudiar únicamente el Análisis de Regresión Lineal Simple y Múltiple y

vamos a apoyar la explicación mediante ejemplos numéricos para facilitar la comprensión de la técnica

de análisis, utilizando el mínimo soporte matemático que es posible.

8.2 Objetivos

• Elaborar un modelo de regresión simple, para explicar el comportamiento de una variable

(dependiente) a partir de otra (independiente).

• Interpretar los coeficientes del modelo elaborado.

• Determinar si el modelo es suficientemente explicativo (bondad de ajuste)

• Especificar el modelo estadístico que subyace al análisis.

• Elaborar un modelo de regresión lineal múltiple con dos variables predictoras.

• Calcular la bondad del modelo de regresión múltiple.

• Realizar inferencias sobre los coeficientes de correlación y los de los modelos de regresión

ajustados.

• Cuantificar la correlación de dos variables cuando se excluye el influjo que otras variables tienen

sobre cada una de ellas.

• Ver el desarrollo completo de un ejemplo de regresión múltiple realizado por un software de

análisis estadístico.

8.3 Análisis de Regresión Simple

Cuando una variable, que llamaremos independiente (VI), aporta información sobre otra variable,

que llamaremos dependiente (VD), decimos que ambas están relacionadas y esa información puede

servir para saber más sobre el comportamiento de la variable dependiente, sabiendo el

comportamiento de la independiente. Esta relación, como se ha señalado en la introducción, puede ser

de diversos tipos: lineal, potencial, exponencial, logarítmica, polinómica, etc. El tipo de relación entre las

variables se detecta a través de la representación gráfica de todos los pares de valores en ambas

variables. Supongamos, por ejemplo, los datos de la Tabla 8.1 (que servirán como conjunto de datos

para la explicación del ARS) con las puntuaciones de 16 escolares en dos variables: una prueba de

vocabulario (variable X o independiente) y el número de errores ortográficos detectados dentro de un

texto (variable Y o dependiente).

Page 5: [TEMA 8] Análisis de Regresión Lineal Simple y Múltiple

5

Tabla 8.1

Datos de 16 escolares en una prueba de vocabulario (X) y número de errores ortográficos

detectados en un texto (Y)

Sujeto X Y Sujeto X Y

1 3 9 9 10 22

2 1 7 10 2 6

3 7 12 11 5 10

4 9 18 12 7 18

5 10 18 13 9 16

6 8 13 14 6 13

7 4 8 15 7 15

8 6 17 16 8 16

Al confeccionar el correspondiente diagrama de dispersión o diagrama de puntos de los 16 pares de

datos (véase la Figura 8.1) se observa que hay un tendencia de carácter lineal y positiva, en el sentido

que a medida que un escolar puntúa más alto en la prueba de vocabulario (X) también suele detectar

más errores ortográficos (Y). Obviamente estamos hablando de una tendencia porque esa relación no

siempre se cumple de tal forma que no siempre una mayor puntuación en vocabulario se corresponde

con una mayor detección de errores. Véase, por ejemplo, los sujetos 12 y 13; el segundo obtiene una

puntuación mayor en la prueba de vocabulario (2 puntos), pero detecta dos errores menos que el

primero. Aún así, la tendencia global de los datos es claramente directa o positiva.

Por lo estudiado en el texto de Introducción al Análisis de Datos sabemos cómo cuantificar la relación

entre dos variables cuantitativas: mediante el Coeficiente de Correlación de Pearson, que puede

expresarse en términos de puntuaciones directas, diferenciales o típicas.

Page 6: [TEMA 8] Análisis de Regresión Lineal Simple y Múltiple

6

Figura 8.1 Diagrama de dispersión de los datos de la tabla 8.1

Estas fórmulas son, respectivamente, las siguientes:

��� � � ∑ �� ∑ � ∑ ��� ∑ �� ∑ ������ ∑ �� ∑ ���� (8.1)

��� � ∑ ��∑ �� ∑ �� (8.2)

����� � ∑ �� ��� (8.3)

El resultado del coeficiente con puntuaciones directas y diferenciales para nuestros datos es:

��� � 16� 1561� 102� 218�� 16� 764� 102��� 16� 3294� 218�� � 0,8924

��� � 171,25 113,75� 323,75� � 0,8924

Page 7: [TEMA 8] Análisis de Regresión Lineal Simple y Múltiple

7

En la Tabla 8.2 se muestran los cálculos necesarios para obtener los diferentes elementos de las

fórmulas.

Tabla 8.2

Desarrollo para el cálculo del coeficiente de correlación de Pearson

Puntuaciones directas Puntuaciones diferenciales

Sujetos X Y XY X2 Y2 x y xy x2 y2

1 3 9 27 9 81 -3,375 -4,625 15,609375 11,390625 21,390625

2 1 7 7 1 49 -5,375 -6,625 35,609375 28,890625 43,890625

3 7 12 84 49 144 0,625 -1,625 -1,015625 0,390625 2,640625

4 9 18 162 81 324 2,625 4,375 11,484375 6,890625 19,140625

5 10 18 180 100 324 3,625 4,375 15,859375 13,140625 19,140625

6 8 13 104 64 169 1,625 -0,625 -1,015625 2,640625 0,390625

7 4 8 32 16 64 -2,375 -5,625 13,359375 5,640625 31,640625

8 6 17 102 36 289 -0,375 3,375 -1,265625 0,140625 11,390625

9 10 22 220 100 484 3,625 8,375 30,359375 13,140625 70,140625

10 2 6 12 4 36 -4,375 -7,625 33,359375 19,140625 58,140625

11 5 10 50 25 100 -1,375 -3,625 4,984375 1,890625 13,140625

12 7 18 126 49 324 0,625 4,375 2,734375 0,390625 19,140625

13 9 16 144 81 256 2,625 2,375 6,234375 6,890625 5,640625

14 6 13 78 36 169 -0,375 -0,625 0,234375 0,140625 0,390625

15 7 15 105 49 225 0,625 1,375 0,859375 0,390625 1,890625

16 8 16 128 64 256 1,625 2,375 3,859375 2,640625 5,640625

Suma 102 218 1561 764 3294 171,25 113,75 323,75

Media 6,375 13,625

Desv. Típ. 2,7538 4,6458

A la vista de los datos representados en el diagrama de la Figura 8.1, es fácil intuir que la relación

entre ambas variables puede ser “modelada” de tal forma que la VD se represente como una función de

la VI. En este caso, la función que, a priori y visto el diagrama, mejor puede modelar la relación es la

lineal, es decir, una función que exprese la VD en términos de los valores de la VI, sometidos a algún tipo

de transformación lineal. Dicho de otra forma, una función lineal que permita hacer una estimación de

la VD a partir de la VI, es una función del tipo:

Page 8: [TEMA 8] Análisis de Regresión Lineal Simple y Múltiple

8

�# � $� % $&; (�)�(*+,+ (� ).�/.+012�(* ,1�(0/+* (8.4 a)

�# � $� ; (�)�(*+,+ (� ).�/.+012�(* ,13(�(�01+4(* (8.4 b)

�5� � ����� ; (�)�(*+,+ (� ).�/.+012�(* /í)10+* (8.4 c)

Al ser una estimación, Y’ (puntuación en Y predicha por el modelo lineal) se acercará más o menos al

verdadero valor de la VD. Este ajuste será mayor cuanto mayor sea la relación entre las variables, es

decir, dependerá del valor del coeficiente de correlación de Pearson, como tendremos ocasión de

demostrar más adelante. Aún sabiendo que la mejor relación puede ser representada por una función

lineal, queda aún por determinar cuál de las muchas funciones lineales (una para cada combinación de

valores, parámetros o coeficientes de la regresión, B y B0 en la Ecuación 8.4 lo cual significa que, en

esencia, son infinitas), es la que mejor ajusta los datos del diagrama.

8.3.1 Coeficientes de la regresión lineal simple

Antes de proceder al cálculo de los coeficientes de regresión (B y B0) es conveniente observar qué

sucede una vez que hemos determinado la función y la representamos sobre los datos. En la Figura 8.2

se pueden ver los datos y una línea vertical entre cada uno de los datos y la recta de ajuste que mejor

los ajusta (más adelante veremos cómo se calcula esta recta). Cuando ya se ha construido la recta (que

es una estimación de Y), y se procede a particularizar para cada valor de la VI (en este caso puntuación

en vocabulario), los valores resultantes se sitúa, obviamente, a lo largo de la recta. En algunos casos el

valor que se obtiene con la recta de ajuste (la estimación, Y’) coincide con el verdadero valor de la VD

(representado por los puntos), aunque en la mayoría de los casos no coincide. Es decir, si deseamos

predecir el comportamiento de VD utilizando su relación con VI, una vez hecha la predicción (valor en la

recta), vemos que en muchos casos difiere del verdadero valor de la VD para ese valor concreto de la VI.

Por tanto, cuando utilizamos el modelo lineal para estimar cada valor Y a partir de X aplicando la recta

de regresión obtenida, hay un error en la estimación de la VD (Y) ya que el valor pronosticado (Y’) y el

valor medido (Y) no suelen coincidir. La diferencia entre ambos es ese error de estimación. En la Figura

8.2 este error viene dado por la magnitud o longitud de la línea vertical que separa cada dato de la

predicción realizada por la recta de regresión.

Page 9: [TEMA 8] Análisis de Regresión Lineal Simple y Múltiple

9

Figura 8.2 Errores después del ajuste de una recta

De acuerdo a la fórmula (8.4), los valores en la recta los hemos denominado Y’, y a los valores de la

VD los hemos denominado Y. Pensemos en estas distancias (Y – Y’), como la distancia que hay entre

cada valor (Y) y su media (representada por Y’, ya que la predicción realizada por la recta de regresión

representa la media que sería de esperar si el análisis se repitiese con infinitas muestras). Ahora,

tomemos estas distancias, elevémoslas al cuadrado y sumemos todos esos cuadrados. El valor

resultante de esta suma será el Error Cuadrático de la Recta de Ajuste (existen otras terminologías como

Recta de Estimación, Recta de Predicción o Recta de Regresión, siendo cualquiera de estas

denominaciones es válida), y sólo hay una recta que hace mínimo este error. Por esta razón a este

método de ajuste de una recta de regresión se le conoce como ajuste por mínimos cuadrados ya que el

objetivo es encontrar los valores B y B0 que hacen más pequeño (mínimo) el error (Y-Y’) al cuadrado.

Además, hay otra característica importante de la recta de ajuste, que se puede enunciar del siguiente

modo: la recta de regresión es una estimación insesgada de la VD en el sentido de que la media de los

valores pronosticados es igual a la media de los valores observados. Es decir,

∑ �7� � ∑ �57� (8.5)

Por procedimientos matemáticos que no vamos a desarrollar, el valor del parámetro B de la función

lineal en (8.4) que minimiza los errores cuadráticos, se obtiene de acuerdo a la expresión:

$ � ��� 8�8� (8.6)

siendo rXY, el coeficiente de correlación de Pearson

SY la desviación típica de la variable dependiente (Y)

SX la desviación típica de la variable independiente (X).

Page 10: [TEMA 8] Análisis de Regresión Lineal Simple y Múltiple

10

Conocido B, el valor de B0 se obtiene mediante la expresión:

$& � �9 $�9 (8.7)

Construida la recta de ajuste podemos expresar la variable dependiente, Y, como una función de la

variable independiente, X, mediante la siguiente expresión:

� � $& % $� % : (8.8)

Donde ε representa el error de predicción y está compuesto por las distancias entre cada valor de Y e Y’

para una valor dado de X que observaríamos si repitiésemos el procedimiento a varias muestras

diferentes.

¿Cuál es el significado de los coeficientes de regresión? En el análisis de regresión simple el

coeficiente “protagonista” es el factor B, conocido como pendiente de la recta, y cuantifica el

incremento que se produce en la estimación de la variable dependiente (Y’) cuando la independiente (X)

aumenta en una unidad.

En la Figura 8.3 se ve de manera gráfica el significado de B en nuestros datos. La estimación de Y para

un valor X = 4, proporciona el valor 10,049, y para una X = 5, el valor es 11,555. La diferencia entre estos

valores al aumentar X en una unidad (de 4 a 5) es lo que aumenta Y’ y ese es el valor de la pendiente. En

el caso del ejemplo que ilustra esta explicación la pendiente nos dice que los escolares, con cada punto

más que obtienen en la prueba de vocabulario detectan, en promedio, 1,5 errores más en la prueba de

lectura.

Page 11: [TEMA 8] Análisis de Regresión Lineal Simple y Múltiple

11

Figura 8.3 Interpretación gráfica de la pendiente de la recta de regresión

La constante de la recta de regresión, B0, señala el punto en el que ésta corta al eje de ordenadas, es

decir, el valor estimado de Y cuando X es igual a 0. No es un coeficiente interpretable en el sentido en el

que lo es la pendiente. De hecho, casi nunca es objeto de interpretación salvo cuando el valor 0 se

encuentra dentro del rango de valores de la VI. Si no es el caso, la recta de regresión sólo se puede

interpretar dentro del rango de valores de la VI, pues es con esos valores con los que se construye la

recta de estimación. Fuera de ese rango, no se sabe qué sucede con la función que relaciona X con Y y

por tanto podría ser que por debajo del menor valor de la VI y/o por encima del mayor valor de la VI la

función de estimación de la VD cambiara su forma.

Para que sean válidas las inferencias que sobre la VD se hagan con la recta de regresión, se deben de

cumplir cuatro supuestos básicos, tres de los cuales son, en esencia, los mismos que ya se han

mencionado en las técnicas de análisis para las pruebas T y los ANOVAS:

1. Independencia de las observaciones. Este supuesto sólo se contrasta si el proceso de

selección de la muestra no ha sido aleatorio.

2. Homocedasticidad. Su cumplimiento supone que las varianzas de las distribuciones de los

errores, condicionadas a los diferentes valores de la VI, deben ser iguales.

3. Normalidad de las distribuciones condicionadas.

4. Independencia entre los valores estimados, Y’, y los errores de estimación, ε. Expresado en

términos de coeficiente de correlación de Pearson, ry’ε = 0. Esto es así debido a que los

errores se distribuyen de manera aleatoria, mientras que las estimaciones o pronósticos son

una función de la VI.

En la Figura 8.4 se representan los supuestos 2 (las varianzas de las cuatro curvas normales dibujadas

son idénticas) y 3 (para cada valor de Xi existe una gama de valores posibles que se distribuyen

normalmente con media Y’). El supuesto 4 se puede ver numéricamente en los datos de la Tabla 8.3.

Page 12: [TEMA 8] Análisis de Regresión Lineal Simple y Múltiple

12

Figura 8.4 Representación supuestos 2 y 3 en el ARS

8.3.2 Bondad de Ajuste de la Recta de Regresión

La expresión Bondad de Ajuste, se refiere a cómo de “explicativa” es la recta respecto de los datos

sobre los que se ha ajustado. Al hacer un ajuste mínimo cuadrático conseguimos un conjunto de valores,

situados sobre la recta, cuyo promedio coincide con el promedio de la VD, que estiman los diferentes

valores de la VD para cada valor de la VI. Denotaremos simbólicamente estos valores estimados

mediante el símbolo de la variable dependiente (v.g., Y) con un acento en la parte superior derecha, es

decir, como Y’ y la nombraremos diciendo “Y prima”. Las estimaciones pueden diferir de los valores de

la VD, es decir, los valores de Y no tienen porqué coincidir exactamente con Y’. La diferencia entre

ambos valores será un “error de estimación” que, siendo inevitable, trataremos de que sea lo menor

posible. La magnitud de los errores de estimación son un primer indicio para determinar si el ajuste es

bueno o no. No obstante, tomar la magnitud de los errores aisladamente, sin poner ésta en relación con

alguna otra magnitud, no resuelve completamente el problema de determinar la bondad.

Para explicar el concepto de bondad de ajuste, veamos de qué está compuesta la varianza de la VD,

antes y después de ajustar la recta de regresión sobre el conjunto de datos. Para ello, vamos a estudiar

lo que sucede en uno solo de los 16 valores que estamos utilizando como ejemplo numérico, tal como se

observa en la Figura 8.5.

Page 13: [TEMA 8] Análisis de Regresión Lineal Simple y Múltiple

13

Figura 8.5 Descomposición de la suma de cuadrados de la VD

Imagine el lector que sólo dispone de los estadísticos media y varianza de la prueba de detección de

errores del grupo de sujetos del ejemplo de la Tabla 8.1, y desea hacer una estimación para un sujeto

concreto, y aún no sabe que se ha determinado que dicha prueba está relacionada con la prueba de

vocabulario. A falta de otro tipo de información sobre la variable que se quiere estimar, lo correcto es

otorgar como mejor estimación la media del grupo, por ser la que minimiza el error de predicción. Para

cada sujeto concreto el error que se cometerá será �7 �9�, y para el conjunto de datos, el error,

expresado en términos de cuadrados, es el mínimo posible. Es decir, si no tenemos idea de la relación

entre la variable predictora (X) y la predicha (Y), y nos piden realizar una estimación de Y, lo mejor que

podemos hacer es utilizar la media de Y como estimador. Cualquier otro valor que elijamos hará que el

error de predicción sea superior al que obtendríamos si utilizamos la media.

Sigamos suponiendo que en un momento posterior disponemos de información sobre la relación que

hay entre la detección de errores (Y) y una prueba de vocabulario (X) que han realizado los estudiantes,

y sabe cuál es la recta de ajuste entre ambas variables. Si ahora desea hacer una estimación de la

puntuación de un sujeto en la prueba de errores, lo razonable es que aproveche la información nueva

de que dispone, y vea qué puntuación ha obtenido el sujeto en vocabulario y, mediante la ecuación de

la recta construida, haga una estimación de la puntuación en Y, que estará situada en la recta y que

hemos denominado Y’. Esta estimación se aproxima más al valor original (Y) de lo que lo hacía la media

pero aún persiste un cierto error, el que va de Y a Y’. Es decir, del error original, � �9�, hemos

reducido una parte, �5 �9�, pero aún queda otra parte, � �5�, sin explicar. Por tanto, la variable

original Y, expresada en puntuaciones diferenciales, � �9�, es la suma de otras dos variables, � �5� � �5 �9�, que, además, son independientes entre sí; su correlación, pues, es cero. Por tanto

podemos afirmar que a nivel de cada puntuación individual se cumple:

Page 14: [TEMA 8] Análisis de Regresión Lineal Simple y Múltiple

14

� �9� � �# �9� % � �5� (8.9)

y sumando para todos los puntos y elevando al cuadrado se obtiene lo que se conoce como Suma de

Cuadrados, dividiendo por el número de casos menos 1 se obtienen la varianza total de Y (2

YS ), la

varianza de las Y predichas (2

'YS ) y la varianza de los errores (2

εS ). Como la relación de la Ecuación 8.9 se

sigue manteniendo, estas varianzas mantienen la relación que puede verse en la Ecuación 8.10:

∑ � �9��� 1 � ∑ �5 �9��� 1 % ∑ � �5��� 1 ; 8�� � 8�#� % 8<� (8.10)

En resumen, cuando hay una relación lineal entre dos variables, la varianza de la VD se puede

descomponer en dos varianzas: la de los pronósticos, debido a la relación que la VD guarda con la VI, y la

de los errores o residuos. Esta relación se cumple tanto para la Regresión Lineal Simple como para la

Múltiple. Esta descomposición de las varianza de la VD en dos varianzas es el “Teorema de Pitágoras”

del Análisis de Regresión Lineal.

Tabla 8.3

Desarrollo numérico de la descomposición de la varianza de la VD

X Y => Y' � �9� �# �9� � �#� � �9�� �5 �9�� � �5��

3 9 13,6250 8,5440 -4,6250 -5,0810 0,4560 21,3906 25,8170 0,2080

1 7 13,6250 5,5330 -6,6250 -8,0920 1,4670 43,8906 65,4810 2,1522

7 12 13,6250 14,5659 -1,6250 0,9409 -2,5659 2,6406 0,8854 6,5840

9 18 13,6250 17,5769 4,3750 3,9519 0,4231 19,1406 15,6177 0,1790

10 18 13,6250 19,0824 4,3750 5,4574 -1,0824 19,1406 29,7834 1,1716

8 13 13,6250 16,0714 -0,6250 2,4464 -3,0714 0,3906 5,9850 9,4337

4 8 13,6250 10,0495 -5,6250 -3,5755 -2,0495 31,6406 12,7846 4,2002

6 17 13,6250 13,0604 3,3750 -0,5646 3,9396 11,3906 0,3187 15,5201

10 22 13,6250 19,0824 8,3750 5,4574 2,9176 70,1406 29,7834 8,5123

2 6 13,6250 7,0385 -7,6250 -6,5865 -1,0385 58,1406 43,3825 1,0784

5 10 13,6250 11,5549 -3,6250 -2,0701 -1,5549 13,1406 4,2851 2,4179

7 18 13,6250 14,5659 4,3750 0,9409 3,4341 19,1406 0,8854 11,7928

9 16 13,6250 17,5769 2,3750 3,9519 -1,5769 5,6406 15,6177 2,4867

6 13 13,6250 13,0604 -0,6250 -0,5646 -0,0604 0,3906 0,3187 0,0037

7 15 13,6250 14,5659 1,3750 0,9409 0,4341 1,8906 0,8854 0,1884

8 16 13,6250 16,0714 2,3750 2,4464 -0,0714 5,6406 5,9850 0,0051

Suma 323,7500 257,8159 65,9341

Varianzas

5833,212=

YS 1877,172

' =Y

S 3956,42=

εS

rY’ε 0

3956,4)116/(9341,65

1877,17)116/(8159,257

5833,21)116/(75,323

2

2

'

2

=−=

=−=

=−=

εS

S

S

Y

Y

rXY 0,8924 R2 0,7963

Page 15: [TEMA 8] Análisis de Regresión Lineal Simple y Múltiple

15

A partir de la Ecuación 8.10, se puede establecer una serie de relaciones. La primera es lo que

representa la proporción de la varianza de los pronósticos respecto de la VD: la proporción de la

varianza de la VD explicada por la varianza de la VI, ya que los pronósticos son un combinación lineal

de la propia VI, combinación que está representada por la recta de regresión (Y’ = BX + B0). La cuantía de

esta proporción es el cuadrado del coeficiente de correlación de Pearson entre la VD y la VI (esto solo

sirve para el caso de la Regresión Lineal Simple).

?@AB?@B � ∑ �AC�9�B

∑ �C�9�B � ?DEFG?D@ � H��� (8.11)

8<�8�� � ∑ � �5��∑ � �9�� � 8IJKL7MNOL8I� � 1 H��� (8.12)

En resumen, H��� (a partir de ahora lo designaremos como R2), denominado Coeficiente de

Determinación, es la proporción de la variabilidad de la VD que es imputada (o explicada por) la

variabilidad de la VI, mientras que su complemento, 1 H��� �, denominado Coeficiente de Alienación,

es la parte residual de la variabilidad de la VD, atribuible a otros factores no relacionados linealmente

con la VD.

Además de esta interpretación de R2, hay otra que tiene que ver con la reducción del error original

de la VD. En este sentido, R2 es la proporción en que se reduce el error de la VD cuando empleamos la

recta de regresión para estimarla. Observe el lector (Tabla 8.3) que el error cuadrático inicial es

21,5833, y después de ajustar la recta y proceder a las estimaciones de Y, aún queda un error cuadrático

de 4,3956. En términos absolutos el error se ha reducido en 21,5833 – 4,3956 = 17,1877, lo que en

términos de proporción respecto del error original la reducción es: 17,1877/21,5833 = 0,7963, que es el

valor de R2 que aparece en la Tabla.

A partir de 8.12, se puede obtener la desviación estándar de los errores (o residuos). Su expresión es:

2

222

2

2

Y

2

1

)1(

1S

S

XYY

XYY

XY

RSS

RSS

R

−=

−=

−=

ε

ε

ε

(8.13)

Un forma gráfica de representar la varianza explicada o compartida es mediante los denominados

diagramas de Venn en estadística matemática, en el cual la varianza de cada variable es representada

por sendos círculos de área igual a la unidad y la intersección del solapamiento de ambos círculos

representaría la proporción de varianza compartida, que es el valor del coeficiente de determinación R2.

Page 16: [TEMA 8] Análisis de Regresión Lineal Simple y Múltiple

16

En la Figura 8.6 se representa la varianza compartida de los datos del ejemplo, sin pretensión de

exactitud en cuanto al área solapada de ambos círculos.

Figura 8.6 Diagrama de Venn con la representación de la proporción de varianza compartida

Otro indicador del ajuste, además de R2, es lo que se conoce como Error Típico, y es una estimación

sobre la población realizada a partir de la muestra. Su valor se deriva de la raíz cuadrado del cociente

entre la Suma de Cuadrados de los residuos o errores entre los grados de libertad, que son el número de

observaciones muestrales menos el número de parámetros estimados por la regresión, que en el caso

bivariado son dos. La fórmula es:

P< � Q∑ � �5��� ) 1 (8.14)

Siendo p, el número de variables independientes que incorpora el modelo, que en el caso de la

regresión simple es 1.

8.3.3 Inferencias sobre la regresión

Una vez construido el modelo de estimación, es preciso dotarle de significación estadística para que

las inferencias que se hagan a partir de los datos muestrales sean válidas para el conjunto de la

población. Los dos contrastes que vamos a tratar son los que tienen que ver con el coeficiente de

correlación entre las variables dependiente e independiente, y por tanto también es un contraste sobre

la regresión, y el segundo es el contraste que se realiza sobre los coeficientes de regresión. Además del

contraste, veremos cómo calcular los intervalos de confianza tanto para el coeficiente de correlación

como para los coeficientes de la regresión.

8.3.3.1 Contraste sobre la correlación/regresión

El primer contraste que hay que realizar es el relativo al ajuste de la correlación entre la VD y la VI. En

este caso la hipótesis nula será que no hay relación entre la VD y la VI, siendo la hipótesis alternativa su

negación, es decir que sí hay relación. Expresado simbólicamente:

Page 17: [TEMA 8] Análisis de Regresión Lineal Simple y Múltiple

17

R&: T � 0

RU: T V 0

donde ρ representa la correlación entre la VD y la VI en la población. Para dilucidar la significación se

puede utilizar dos procedimientos que conducen al mismo resultado. Por un lado, se puede establecer

una razón F (es decir, un cociente entre medias cuadráticas) entre el coeficiente de determinación y el

coeficiente de alienación, divididos por sus respectivos grados de libertad. Su fórmula es:

W � H� X. 4. �(X�(*1ó�[ 1 H�� X. 4. �(*1,.2*\ (8.15)

Fórmula que se puede reescribir también del siguiente modo:

W � H�/1 1 H�� ^ 2�\ (8.16)

y aplicada a los datos que están sirviendo como ejemplo, nos da un resultado de F

W � 0,7963 1 0,7963� 16 2�\ � 54,743

valor que resulta significativo, pues la probabilidad de encontrar un valor F igual o mayor, con 1 y 14

grados de libertad es p = 3,358x10-6

(este valor no puede localizarse en las Tablas debido a la magnitud

tan elevada de la F obtenida; véase para comprobarlo las figuras 8.7a y 8.7b).

Figura 8.7a: Distribución F con 1 y 14 grados de

libertad. Obsérvese como la gráfica es

indistinguible del eje de abscisas a partir de F =

Figura 8.7b: Distribución F con 1 y 14 grados de

libertad limitada al rango de valores del eje de

abscisas [50, 60]. Se puede ver que la función F no

0 10 20 30 40 50 60

0.2

0.4

0.6

0.8

1.0

52 54 56 58 60

1. µ10-7

2. µ10-7

3. µ10-7

4. µ10-7

5. µ10-7

6. µ10-7

Page 18: [TEMA 8] Análisis de Regresión Lineal Simple y Múltiple

18

10. toca el eje de abscisas, pero que los valores de las

ordenadas son inferiores a la millonésima.

Comparando este procedimiento con la tabla del ANOVA, tenemos, a partir de las expresiones (8.11) y

(8.12), que la razón F se puede reescribir del siguiente modo:

W �8IJK_J. 1[

8IJKL7M. ^ 2�[ � `IJK_J.`IJKL7M. (8.17)

Lo relevante de estas expresiones son los grados de libertad asociados a la suma de cuadrados de la

regresión (1 g.l.), y por lo tanto a R2, y los grados de libertad de la suma de cuadrados de los errores o

residuos (N-2 g.l.), (y por tanto a 1 – R2). El término N refleja el número de observaciones

independientes (el total de sujetos) y el valor 2 representa el número de restricciones que han sido

necesarias para construir la ecuación de estimación, a saber, la pendiente (B) y el intercepto (B0). El

único grado de libertad asociado a la suma de cuadrados de la regresión representa la desviación de la

pendiente B con respecto a cero. Realizando el cálculo para los datos del ejemplo (véase Tabla 8.4),

cuyas sumas de cuadrados se pueden ver en las sumas de las dos últimas columnas de la Tabla 8.3, y

puesto en formato de tabla de ANOVA:

Tabla 8.4

Tabla ANOVA para el contraste de la Regresión

ANOVA de la Regresión

FV SC GL MC F Prob.

Regresión 257,816 1 257,8159 54,743 3,36E-06

Residuos 65,9341 14 4,7096

Total 323,75 15

La otra manera de contrastar la hipótesis nula de que la correlación en la población es igual a 0, es

mediante el estadístico t, cuya expresión es:

/ � ���√� 21 ���� (8.17)

que se distribuye según la t de Student con n-2 grados de libertad. Para los datos que sirven de soporte,

el valor del estadístico es:

Page 19: [TEMA 8] Análisis de Regresión Lineal Simple y Múltiple

19

/ � 0,8924√16 21 0,8924� � 7,3988

Cuya probabilidad es, lógicamente, la misma que del valor del estadístico F, calculado anteriormente, y

ello es debido a la igualdad entre la t y la F en determinadas condiciones de los grados de libertad de F.

Esta relación es la siguiente:

/b� � WU,b (8.18)

Page 20: [TEMA 8] Análisis de Regresión Lineal Simple y Múltiple

20

OPCIONAL

8.3.3.2 Intervalo de confianza (IC) para rXY

La distribución muestral de rXY no es simétrica salvo en el caso que la ρXY (correlación en la población)

sea igual a 0, lo cual supone que los límites del intervalo de confianza no son equidistantes del valor de

rXY. Sin entrar en consideraciones sobre el por qué de este comportamiento del intervalo de confianza,

para resolver este problema, Fisher desarrolló el estadístico z’ como una transformación de r:

�# � 12 �4� 1 % �� 4� 1 ��� (8.20)

donde ln es el logaritmo naturali con base e ≈ 2,7183. La distribución muestral de z’ depende

únicamente del tamaño muestral y presenta una distribución normal incluso con muestras

relativamente pequeñas. Su error típico es:

P�# � 1√� 3 (8.21)

Luego el IC se calcula como:

'2/')'(z

zzzIC σα

⋅±=

Aplicado (8.20) y (8.21) al coeficiente de correlación obtenido con los datos del ejemplo, y para un

intervalo de confianza del 95%, asumiendo la normalidad de la distribución muestral de z’, los límites del

IC serán:

�# � 12 �4� 1 % 0,8924� 4� 1 0,8924�� � 1,434

P�A � 1√16 3 � 0,2773

cIde% �#� � 1,434 g 0,2773� 1,96� � hiL �#� � 1,98i7 �#� � 0,89j

Convirtiendo estos dos valores de z’, en valores de r, tomando la correspondencia de la Tabla XIII

(transformada Z de Fisher), los límites aproximados del IC de r son, 0,71 y 0,96 (véanse las Figuras 8.8a y

8.8b para ejemplificar la utilización de la Tabla XIII), valores que no son simétricos respectos del

coeficiente de correlación muestral (0,8924) ya que la distancia entre Li y rXY es distinta de la distancia

entre Ls y rXY. Es la primera vez que observamos un IC asimétrico como puede verse gráficamente en la

Figura 8.9.

Page 21: [TEMA 8] Análisis de Regresión Lineal Simple y Múltiple

21

Figura 8.8a: Obtención del valor de rinferior a partir

del Li de z’ en la Tabla XIII del Formulario.

Figura 8.8b: Obtención del valor de rsuperior a partir

del Ls de z’ en la Tabla XIII del Formulario

(obsérvese que hemos tenido que aproximar ya

que el valor de 1.98 no se encuentra en la tabla).

Figura 8.9: Coeficiente de correlación e intervalo de confianza para los datos del ejemplo. Puede verse

claramente que el IC no es simétrico con respecto a rXY muestral.

8.3.3.3 Contraste para los coeficientes de la regresión, B y B0

Con este contraste se quiere determinar si hay evidencia estadística de que la pendiente es diferente

de cero, es decir si la pendiente es significativamente diferente a una línea horizontal, perpendicular al

eje de ordenadas, e igualmente si el intercepto es diferente de cero, aunque en este caso ya se ha

señalado que en la mayor parte de los estudios suele ser ignorado. Por tanto, las hipótesis nula y

alternativa respecto de la pendiente y el intercepto en la población, β y β0, respectivamente son:

R&: k � 0 ; k& � 0

RU: k V 0 ; k& V 0

Page 22: [TEMA 8] Análisis de Regresión Lineal Simple y Múltiple

22

El estadístico de contraste para la pendiente es:

/ � $ 0Pl (8.22)

siendo Pm el error típico de la distribución muestral de la pendiente cuya expresión es:

Pl � 8�8� Q1 ���� � 2� (8.23)

El estadístico t es un percentil de la distribución t de Student con n-2 grados de libertad. Cuando el

tamaño muestral es lo suficientemente amplio (n ≥ 100), la significación del valor t se puede determinar

en la distribución normal tipificada.

Aplicando este contraste a la pendiente de los datos que están sirviendo de ejemplo, el valor del

estadístico es:

/ � 1,5055 04,6462,754 n1 0,8924� 16 2�� 1,50550,2035 � 7,399

Siendo p = 3,36x10-6

(de nuevo, el valor de t = 7,399 es tan elevado que no aparece en las tablas y, por

tanto, tampoco pueden utilizarse estas para evaluar el valor de p; esto significa que este valor de

probabilidad ha sido obtenido mediante un software científico) la probabilidad de encontrar un valor

igual o mayor, lo cual lleva al rechazo de la H0. Observe el lector que la probabilidad de este estadístico

es la misma que la de la F en la Tabla 8.4 del ANOVA de la Regresión.

Para el intercepto, el estadístico de contraste es:

/ � $& 0Plo (8.24)

siendo Pmoel error típico de la distribución muestral del intercepto, cuya expresión es:

Plo � P< Q1� % �9� � 1�8�� (8.25)

siendo P< el Error Típico, ya comentado en el epígrafe de bondad de ajuste, y cuyo valor es la raíz

cuadrada de la Media Cuadrática (MC) de los Residuos de la tabla del ANOVA (Tabla 8.4) para el

contraste de la regresión, que representa la varianza residual en la población para el caso de la regresión

bivariada. Como en el caso de la pendiente, el estadístico t tiene la misma distribución con los mismos

grados de libertad.

Aplicando el contraste a los datos del ejemplo, y teniendo en cuenta que, en el caso de la regresión

bivariada la varianza residual en la población tiene n-2 grados de libertad, y dado que estamos haciendo

la inferencia para la población, el valor de la varianza residual es:

Page 23: [TEMA 8] Análisis de Regresión Lineal Simple y Múltiple

23

/ � 4,0275 0√4,7096n 116 % 6,375� 16 1�7,583

� 4,02751,4061 � 2,864

Cuya probabilidad es 0,006, por lo que se rechaza la hipótesis nula de que el intercepto es igual a 0

(tanto si utilizamos un 05,0=α como un 01,0=α ). Como puede verse en la Figura 8.10, las Tablas

solo nos permiten determinar que 2,864 se encuentra entre los valores 2,624 y 2,977. Por consiguiente,

la p debe encontrarse entre 1-0,990 = 0.01 y 1-0.995 = 0.005. La probabilidad calculada se realizó

mediante software científico.

Figura 8.10

8.3.3.4 Intervalo de Confianza para los coeficientes de regresión, B y B0

Al mismo resultado se llega si en vez de calcular el estadístico t se calcula el intervalo de confianza

sobre el coeficiente de regresión, B. Dado que ya se ha calculado el Error Típico de la distribución

muestral de B (Pl) con la expresión (8.23), los límites del IC de B, se obtendrán según la siguiente

fórmula:

cI $� � $ g p/ bC�;UCq �⁄ �s Pl� (8.26)

siendo t(n-2;1-α/2), el valor de t de la distribución t de Student con n-2 grados de libertad y un nivel de

significación α. Aplicando la fórmula a los resultados del ejemplo se obtiene, para un nivel de confianza

del 95%, los siguientes límites:

cIl � 1,5055 g 2,145� t4,6462,754 Q1 0,8924� 16 2� u � v1,9421,069j

Al no contener el ICB el valor 0 entre sus límites, se llega, obviamente, a la misma conclusión que a

través del estadístico t.

Page 24: [TEMA 8] Análisis de Regresión Lineal Simple y Múltiple

24

Para el intercepto, la fórmula de cálculo del IC es:

cI $&� � $& g / bC�;UCq �⁄ � Plo� (8.27)

Aplicando la expresión a los datos del ejemplo los límites son

cIlo � 4,0275 g 2,145� t4,7096Q 116 % 6,375� 16 1�7,583u � v7,0431,012j

También aquí se llega a la misma conclusión que con el estadístico de contraste t, se rechaza la

hipótesis nula ya que el intervalo de confianza no incluye el valor 0.

Page 25: [TEMA 8] Análisis de Regresión Lineal Simple y Múltiple

25

OPCIONAL

3.3.5 Intervalo de Confianza de los valores estimados Y’

Por último, para cerrar los apartados de contrastes de hipótesis e intervalos de confianza, resta

únicamente calcular el IC para los valores estimados Y’ para cada valor de la VI. Para ello sólo se necesita

conocer el Error Típico de la distribución muestral de los pronósticos, error que es una función, entre

otros estadísticos, de cada valor de la VI y de su media. Su expresión es:

P�# � P<Q1� % �7 �9�� � 1�8�� (8.28)

Aplicado a los datos del ejemplo con un nivel de confianza del 95%, los límites de las estimaciones, Y’

para cada valor de la VI (es decir, para cada Xi), se pueden ver en la tabla 8.5.

Page 26: [TEMA 8] Análisis de Regresión Lineal Simple y Múltiple

26

Tabla 8.5

Límites del IC para los valores estimados de los datos del ejemplo de la Tabla 8.1

(Ecuación de regresión: Y’ = 1,5055X+ 4,0275)

X Y' ETY’ Li (Y’i) Ls (Y’i)

1 5,5330 1,2209 2,9145 8,1515

2 7,0385 1,0425 4,8025 9,2744

3 8,5440 0,8752 6,6669 10,4210

4 10,0495 0,7266 8,4911 11,6078

5 11,5549 0,6104 10,2457 12,8642

6 13,0604 0,5479 11,8854 14,2355

7 14,5659 0,5572 13,3708 15,7611

8 16,0714 0,6354 14,7087 17,4341

9 17,5769 0,7613 15,9440 19,2098

10 19,0824 0,9156 17,1186 21,0463

Ejemplo del cálculo para X1 = 1.

1515.82209.1145.25330.5)(

9145.22209.1145.25330.5)(

2209.1583.7)116(

)375.61(

16

17096.4

)1(

)(1

5330.50275.45055.1

'1

'1

'1

)2

1,2(

'

1

'

1

)2

1,2(

'

1

'

1

2

2

2

1

'

1

=⋅+=+=

=⋅−=−=

=⋅−

−+=

⋅−

−+=

=+⋅=

−−

−−

Yns

Yni

X

i

Y

ETtYYL

ETtYYL

Sn

XX

nET

XY

α

α

εσ

Este proceso se repetiría para cada Xi.

Su representación gráfica se puede ver en la Figura 8.11. Observe el lector, que por la propia

estructura de la fórmula del error típico, la parte más estrecha del intervalo, se sitúa en el punto �9, �9�,

y se va abriendo a medida que las estimaciones se alejan de este punto, debido al factor �7 �9�� en la

fórmula del Error Típico

Page 27: [TEMA 8] Análisis de Regresión Lineal Simple y Múltiple

27

Figura 8.11 Representación gráfica del IC para los valores estimados por la línea de regresión.

Page 28: [TEMA 8] Análisis de Regresión Lineal Simple y Múltiple

28

OPCIONAL

8.3.4 Precisión de las estimaciones de los parámetros ρ, β, y β0 y su relación con el tamaño muestral

Hasta el momento todos los contrastes prácticos se han basado en un número determinado de

observaciones (en nuestro ejemplo n=16), y el grado de precisión de los contrastes viene dado (repase el

lector las fórmulas de los intervalos de confianza) por el tamaño muestral. En todos los casos, la

amplitud del intervalo es función inversa del tamaño muestral. Para ver por qué sucede esto, pensemos

en los mismos estadísticos obtenidos en el ejemplo y qué le sucede al Error Típico de la distribución

muestral de los parámetros, es decir, el denominador de las pruebas t de los contrastes, que es el factor

que multiplica el valor de t en la construcción del Intervalo de Confianza. En la Tabla 8.6 se muestra para

los mismos estadísticos del ejemplo, qué sucede con el Error Típico de la distribución muestral y con la

Precisión del Intervalo para distintos valores de n.

Tabla 8.6 Relación entre el tamaño muestral y la precisión del IC

Page 29: [TEMA 8] Análisis de Regresión Lineal Simple y Múltiple

29

R 0,8924

Sx 2,7538

Sy 4,6458

w> 6,3750

B 1,5055

B0 4,0275

Error Típico 2,1702

X 6

NC 0,95

Errores Típicos Precisión

n B B0 Y'(x) B B0 Y'(x)

10 0,2692 1,8098 0,6933 0,5998 4,0325 1,5448

12 0,2408 1,6392 0,6328 0,5246 3,5715 1,3787

14 0,2198 1,5093 0,5858 0,4714 3,2371 1,2563

16 0,2035 1,4061 0,5479 0,4314 2,9807 1,1615

18 0,1903 1,3215 0,5165 0,3999 2,7763 1,0851

20 0,1794 1,2506 0,4900 0,3743 2,6086 1,0221

25 0,1588 1,1136 0,4382 0,3270 2,2934 0,9025

30 0,1439 1,0136 0,4000 0,2938 2,0700 0,8169

35 0,1325 0,9364 0,3703 0,2691 1,9011 0,7518

40 0,1235 0,8746 0,3464 0,2496 1,7676 0,7001

45 0,1161 0,8236 0,3266 0,2338 1,6588 0,6577

50 0,1099 0,7806 0,3098 0,2207 1,5678 0,6222

55 0,1046 0,7437 0,2954 0,2096 1,4903 0,5919

60 0,1000 0,7115 0,2828 0,2000 1,4233 0,5657

65 0,0959 0,6832 0,2717 0,1916 1,3645 0,5426

70 0,0923 0,6581 0,2618 0,1841 1,3125 0,5222

75 0,0891 0,6355 0,2529 0,1775 1,2660 0,5039

80 0,0862 0,6151 0,2449 0,1716 1,2241 0,4874

85 0,0836 0,5966 0,2376 0,1662 1,1861 0,4724

90 0,0812 0,5796 0,2309 0,1612 1,1514 0,4587

95 0,0789 0,5640 0,2247 0,1567 1,1197 0,4461

100 0,0769 0,5496 0,2190 0,1526 1,0904 0,4346

Ejemplo de cálculo para n = 20 (línea con fondo oscuro en la tabla):

490,0583,7)120(

)375,66(

20

17096,4

)1(

)(1

250,1583,7)120(

375,6

20

17096,4

)1(

1

179,0)220(

8924,01

754,2

646.4

)2(

1

2

2

2

2

2

2

22

'6

0

=−

−+=

⋅−

−−=

=−

+=−

+=

=−

−=

−=

=

X

i

Y

X

B

XY

X

YB

Sn

XX

n

Sn

X

n

n

r

S

S

ε

σσ

σσ

σ

Las precisiones son la amplitud del intervalo de confianza dividido por

dos.

Analizando las fórmulas de los errores típicos de las distribuciones muestrales de los coeficientes

vemos que estos están aproximadamente en una proporciona inversa a √�. Cuando se cuadruplica el

tamaño muestral el error típico se divide aproximadamente por la mitad. Es fácil, pues, calcular a priori

el tamaño muestral cuando sabemos el Error Típico para un n y se desea reducir en una cierta cantidad,

Page 30: [TEMA 8] Análisis de Regresión Lineal Simple y Múltiple

30

x. el cálculo del nuevo n*

es n/x2. Por ejemplo, para un n = 20 tenemos un Pl= 0,1799. Si queremos

reducir ese error 4 veces (es decir, ¼ o 0,25), el tamaño muestral deberá ser 20/0,252 = 320 sujetos.

Si lo que se desea es una reducción concreta del Error Típico para un n dado, es decir pasar de Pl a la

expresión Plx es: �x � � yPl Plx[ z�. Por ejemplo, si se desea pasar de un Pl de 0,78 para un n = 50 a un

nuevo valor de Pl igual a 0,3, la muestra necesaria es n* = 50(0,78/0,3)

2 = 338 sujetos.

8.4 Análisis de Regresión Múltiple

Como se ha señalado en el epígrafe de Introducción, en este tema sólo tratamos modelos lineales de

explicación del comportamiento de una VD en función de una o varias VI. Ya hemos desarrollado la

técnica de Análisis de Regresión Lineal Simple, y en este epígrafe ampliamos dicho modelo para más de

una VI, empezando por dos VI o variables predictoras. Como en el caso de una sola variable predictora,

se va a desarrollar con el mínimo aparato matemático posible. La técnica de cálculo con el modelo de

dos variables independientes es relativamente sencilla y se puede desarrollar con un calculadora

científica, aunque su modelo matemático, el mismo que el del Modelo Lineal General (MGL), del cual

los modelos de regresión y los modelos de análisis de la varianza son parte, requiere para su desarrollo

algebra de matrices, el cual queda fuera del alcance de este texto. Dado que, en la actualidad, todos

estos procedimientos de análisis se realizan con programas informáticos de análisis estadístico, el

interés estriba en saber leer e interpretar correctamente los resultados del análisis. Comenzaremos, con

el modelo más simple de regresión lineal múltiple que es el de dos variables independientes.

8.4.1 Regresión con dos Variables Independientes

Para la explicación vamos a servirnos de un ejemplo numérico que hace menos abstracto el modelo.

Supongamos que un psicólogo escolar quiere determinar qué factores pueden influir en el rendimiento

en matemáticas en uno de los cursos de educación secundaria. Supone que el tiempo que dedican al

estudio en general es importante, y quizás también su capacidad para el razonamiento abstracto. Para

llevar a cabo esta investigación, selecciona al azar una muestra de 15 estudiantes del colegio y registra

el tiempo semanal de estudio (variable X1) y les administra, además, un test de razonamiento abstracto

(variable X2). Las notas obtenidas por estos 15 escolares en el último examen que han realizado de

matemáticas le sirven como variable dependiente (Y). Los datos son los que se muestran en la Tabla 8.7

Page 31: [TEMA 8] Análisis de Regresión Lineal Simple y Múltiple

31

Tabla 8.7

Datos para el desarrollo del análisis con dos VI

Sujeto

Horas Estudio

(X1)

Test Razonamiento

(X2)

Punt. Matemáticas

(Y)

1 8 19 54

2 9 18 52

3 6 14 34

4 9 24 63

5 9 19 46

6 9 16 44

7 12 17 50

8 9 14 52

9 6 23 57

10 11 21 53

11 10 17 56

12 13 19 67

13 9 24 57

14 9 19 54

15 11 17 51

El modelo de estimación lineal de la VD con dos VI’s, constará de dos coeficientes de regresión, uno

para cada VI, y una constante que será el valor estimado para la VD cuando son nulas las dos VI. No

obstante, como ya hemos explicado anteriormente, la constante, si no está el valor cero dentro del

rango de valores de las variables predictoras no se toma en consideración en el análisis. Es decir, si X1= 0

y X2 = 0 no forman parte de los rangos admitidos empíricamente por ambas variables, no tiene sentido

considerar el valor que adoptaría la constante en esos casos. El modelo de estimación es:

�# � $U�U % $��� % $& (8.29)

Por lo que la VD se puede expresar como:

� � �# % : � $U�U % $��� % $& % : (8.30)

Siendo B1 el coeficiente de regresión parcial para X1, B2 el coeficiente de regresión parcial para X2, y

B0 el intercepto con el eje de la Y cuando X1 y X2 valen 0, y ε los residuos una vez que se ha determinado

la función de estimación de la VD. Al igual que en regresión simple, estos coeficientes son los que hacen

mínimo el error cuadrático de predicción, es decir, minimizan las diferencias cuadráticas entre Y e Y’.

Page 32: [TEMA 8] Análisis de Regresión Lineal Simple y Múltiple

32

En primer lugar, antes de calcular los coeficientes de regresión parciales de la ecuación, llamados así

para remarcar que es el peso o efecto de una VI cuando el resto de las VI que están en la ecuación

permanecen constantes, en la Tabla 8.8 se muestran los estadísticos descriptivos de cada una de las

variables, los coeficientes de correlación entre las variables dos a dos (también llamados bivariados) y

las rectas de regresión simple entre cada predictor y la VD. Hemos simplificado la notación de los

coeficientes de correlación (ry1 representa la correlación entre la variable Y y el predictor X1, y el resto

siguen la misma pauta) y también de la regresión ('

1Y representa las estimaciones Y realizadas a partir de

X1)

Tabla 8.8

Estadísticos descriptivos de los datos de la Tabla 8.7

Horas Estudio

(X1)

Test Razonamiento

(X2)

Punt. Matemáticas

(Y)

Media 9,33 18,73 52,67

Desv. Típic. 1,91 3,17 7,76

ry1 0,441 194,02

1 =Yr

ry2 0,628 394,02

2 =Yr

r12 -0,043 002,02

12 =r

Rectas de Regresión

Y'1 = 1,786 X1 + 36

Y'2 = 1,537 X2 + 23,867

Para facilitar el cálculo de los coeficientes de regresión parcial de la ecuación (8.29), comenzaremos, por

sencillez, obteniendo la ecuación de regresión en puntuaciones típicas o estandarizadas, cuya expresión

es:

�5� � kU�U % k��� (8.31)

siendo β1 y β2 los coeficientes de regresión parcial estandarizados, y se obtienen mediante las siguientes

fórmulas:

Page 33: [TEMA 8] Análisis de Regresión Lineal Simple y Múltiple

33

kU � ��U ����U�1 �U��

k� � ��� ��U�U�1 �U��

(8.32)

Con los resultados de la Tabla 8.

kU � 0,441 0,628� 0,043�1 0,043�� � 0,469

k� � 0,628 0,441� 0,043�1 0,043�� � 0,649

Una vez determinados los coeficientes de regresión parcial estandarizados, se obtienen fácilmente los

coeficientes sin estandarizar mediante la relación:

$U � kU 8�8U

$� � k� 8�8�

(8.33)

siendo S1 y S2, las desviaciones típicas de las variables X1 y X2, respectivamente. Sustituyendo por los

valores de la Tabla 8.8 los coeficientes no estandarizados son:

$U � 0,469 7,761,91 � 1,899

$� � 0,649 7,763,17 � 1,587

Y la constante de la ecuación es:

$& � �9 $U�9U $��9� (8.34)

Sustituyendo por los valores correspondientes su valor es:

$& � 52,67 1,899� 9,33� 1,587 18,73� � 5,217

Page 34: [TEMA 8] Análisis de Regresión Lineal Simple y Múltiple

34

Obtenidos los coeficientes, las funciones de estimación de la VD con coeficientes de regresión parcial

no estandarizados y estandarizados (es decir, expresada la función en puntuaciones directas y típicas),

son las siguientes:

�# � 1,899�U % 1,587�� % 5,217

��# � 0,469�U % 0,649��

Al ser dos las variables independientes, las estimaciones quedan situadas en un plano, que se conoce

como plano de regresión, del mismo modo que la línea de estimación en regresión simple se conoce

como línea de regresión. Algunas de las puntuaciones de la VD estarán por encima del plano y otras por

debajo, y esas distancias de cada punto de la VD al plano forman los residuos del modelo de estimación

(véase Figura 8.12).

Figura 8.12: tres vistas del conjunto de puntos y el plano de regresión. La zona azul representa el plano

visto “desde arriba”, la zona naranja representa el plano visto “desde abajo” . La tercera gráfica intenta

visualizar todos los puntos, tanto los que están situados por encima como los que están situados por

debajo del plano. En este caso, el plano se ve en “escorzo”. Los datos están representados por puntos

rojos.

El modelo ajustado, Y’, ya arroja una primera interpretación: cuando permanece constante X2, por

cada hora de estudio, la puntuación en matemáticas aumenta en promedio, 1,899 puntos, y cuando

permanece constante X1, por cada punto más en razonamiento abstracto, aumenta 1,587 la puntuación

e matemáticas

8.4.2 Ajuste del modelo. Medidas de asociación

En regresión simple, el ajuste del modelo viene dado por el coeficiente de determinación que es el

cuadrado del coeficiente de correlación de Pearson entre la VD y la VI, y ese coeficiente informaba de

qué porción de la variabilidad de la VD es explicada por, o atribuida a, la variabilidad de la VI. En el caso

de la regresión múltiple, las preguntas básicas que hay que responder son las siguientes:

• ¿Estiman bien la VD el conjunto de VI’s?

• ¿Cuánta variabilidad explica cada variable individualmente una vez que las otras variables han

aportado lo suyo?

Page 35: [TEMA 8] Análisis de Regresión Lineal Simple y Múltiple

35

Comencemos por responder a la primera pregunta, y para ello disponemos del denominado

coeficiente de correlación múltiple, R, y su cuadrado, el coeficiente de determinación, R2. Al igual que r

es el coeficiente de correlación entre dos variables, R es el coeficiente que correlaciona la VD con una

combinación óptima de dos o más variables independientes. Su fórmula de cálculo es:

H�.U� � Q��U� % ���� 2��U����U�1 �U�� (8.35)

Y de forma alternativa, una expresión si cabe más simple es la basada en los coeficientes de regresión

parcial estandarizados de la recta de regresión:

H�.U� � kU��U % k���� (8.36)

Aplicada la fórmula (8.32) a los datos del ejemplo, el valor de RY.12 es:

H�.U� � 0,469� 0,441� % 0,649 0,628� � 0,7836

El coeficiente de determinación es el cuadrado del coeficiente de correlación múltiple, y su

interpretación y cálculo es idéntica a la de la regresión simple: razón entre la varianza de los pronósticos

y la varianza de la VD.

H�.U�� � 8�.U��8�� � H�.U��� (8.37)

En la Tabla 8.9 se muestran los valores de Y, los pronósticos y los residuos para los datos del ejemplo,

cuya función de estimación de Y, ya calculada, es: �# � 1,899�U % 1,587�� % 5,217

Tabla 8.9

Puntuación en Matemáticas actual, estimada y residual para cada sujeto

Punt. Matemáticas

(Y) Estimaciones

(Y’12) Residuos (Y – Y’12)

54 50,562 3,438

52 50,874 1,126

34 38,829 -4,829

63 60,396 2,604

46 52,461 -6,461

44 47,7 -3,7

Page 36: [TEMA 8] Análisis de Regresión Lineal Simple y Múltiple

36

50 54,984 -4,984

52 44,526 7,474

57 53,112 3,888

53 59,433 -6,433

56 51,186 4,814

67 60,057 6,943

57 60,396 -3,396

54 52,461 1,539

51 53,085 -2,085

Varianza 60,238 36,991 23,247

Ejemplo de cálculo para el primer sujeto:

438.3562.5054

562.50217.5587.1899.1

19854

'

121

21

'

12

211

=−=−

=++=

===

YY

XXY

XXY

A partir de los datos de la Tabla 8.9 se obtiene el coeficiente de determinación R2.

H�.U�� � 8�·U��8�� � 36,99160,238 � 0,614

Es decir, la combinación de las dos variables (tiempo de estudio y razonamiento abstracto) se

atribuyen el 61,4% de la variabilidad de las puntuaciones obtenidas en matemáticas, y por tanto el

38,6% restante se debe a otros factores no relacionados linealmente con dichas puntuaciones. Vemos

que se cumple lo que denominamos Teorema de Pitágoras de la Regresión Lineal: la varianza de las

puntuaciones observadas es igual a la varianza de las puntuaciones estimadas más la varianza de los

residuos. En este caso, tomando los valores de las varianzas calculadas: 60,238 = 36,991 + 23,247.

El coeficiente R2 obtenido en la muestra no es un estimador insesgado de ρ

2 en la población. Para

entender esto de forma intuitiva, podemos imaginar el caso en que una o más VI’s no contribuyen a la

explicación de la varianza de la VD en la población. Sin embargo, en la muestra, debido a las

fluctuaciones del proceso de muestreo, raramente se observa una situación en la que no haya

contribución de una VI a la varianza de la VD, aunque sea muy pequeña. Cuanto menor sea la muestra

mayor será la contribución a la VD, lo que provoca un aumento “artificial” de la R2, valor que no se

correspondería con el ρ2 en la población. Por esa razón, es preferible disponer de una estimación más

ajustada y realista de ρ2. Este ajuste, se conoce como R

2 Ajustado que simbolizaremos mediante la R

mayúscula a la que se le superpone el signo virgulilla:

H|�.U�� � 1 1 H�.U�� � � 1� ) 1 (8.38)

siendo n, el número de observaciones y p, el número de variables independientes o predictoras. Para el

caso de ejemplo, el valor de R2 Ajustado es:

Page 37: [TEMA 8] Análisis de Regresión Lineal Simple y Múltiple

37

H|�.U�� � 1 1 0,614� 15 115 2 1 � 0,5498

Otro valor que informa del ajuste es el Error Típico (ya explicado para el caso bivariado) y que está

relacionado con R2 en el sentido de que cuando éste aumenta el Error Típico disminuye. De acuerdo a la

ecuación 8.14, y siendo las sumas de cuadrados las que se muestran en la Tabla 8.10, su valor para este

ejemplo es:

P< � Q∑ � �5��� ) 1 � Q 325,45115 2 1 � 5,2078

Tabla 8.10

Sumas de cuadrados total, residual y debidas a la regresión del ejemplo numérico

} = =>�~

SCTotal

} = =5�~

SCResiduos

} =5 =>�~

SCRegresión

843,333 325,451 517,968

8.4.3 Correlación Semiparcial y Parcial

La segunda de las preguntas que hacíamos al comienzo del epígrafe anterior, es cómo determinar la

contribución de cada variable independiente a la explicación de la dependiente. La respuesta a esta

pregunta la proporciona la llamada correlación semiparcial, sr, y su cuadrado, sr2. Antes de explicar qué

son esas nuevas correlaciones que acaban de entrar en escena, piense el lector que cuando en un

modelo intervienen más de dos variables, las correlaciones que se calculan entre las variables dos a dos,

no son correlaciones “puras”, en el sentido de que no miden relaciones entre esas dos variables al

margen del influjo que las otras variables del modelo puedan tener sobre cada una de ellas. Estas

correlaciones que se calculan entre dos variables (correlaciones bivariadas) se denominan correlaciones de orden cero, y a través del valor obtenido no se puede saber qué parte de la varianza de la VD es

capaz de explicar independientemente cada una de las VI’s, puesto que entre éstas también puede

haber relación. Por lo tanto, para saber qué parte de la VD explica cada VI al margen de las otras VI’s, es

necesario eliminar el influjo que sobre cada VI tienen el resto de las VI’s, para así poder determinar el

influjo único que esa VI tiene sobre la VD. Esta relación entre cada VI y la VD habiendo eliminado el

influjo del resto de las VI’s sobre cada VI es lo que se llama Coeficiente de Correlación Semiparcial.

¿Cómo se calcula este coeficiente? Ya sabemos, por todo lo explicado hasta el momento, que en un

modelo de regresión hay una proporción de varianza explicada y una proporción de varianza no

Page 38: [TEMA 8] Análisis de Regresión Lineal Simple y Múltiple

38

explicada que es la varianza de los residuos. La varianza explicada lo es en función de una cierta

combinación de las variables independientes; por consiguiente, si en un modelo, por ejemplo, con dos

predictoras X1 y X2, se ajusta una regresión de la 1 sobre la 2, se extraen los residuos y, por último, los

correlaciono con la VD, habré calculado el coeficiente de correlación semiparcial entre X1 y la VD

habiendo eliminado el influjo de X2 sobre la VD. Por otra parte, si se ajusta una regresión simple entre X2

y X1 (obsérvese el cambio de subíndices en relación a la frase anterior), se extraen los residuos y éstos se

correlacionan con la VD, habré calculado la correlación entre el predictor X2 y la VD, habiendo eliminado

el influjo de X1 sobre la VD.

Para llevar a cabo este cálculo de los coeficientes de correlación semiparcial no es necesario

proceder como hemos explicado en el párrafo anterior; hay fórmulas muy sencillas para ello, a partir de

las correlaciones de orden cero.

*�U � ��U ����U�1 �U��

(8.39) *�� � ��� ��U�U�1 �U��

y elevando al cuadrado estos valores se tiene la contribución que cada VI tiene sobre la VD habiendo

eliminado el influjo de las otras VI’s. En la Figura 8.13 se observa gráficamente, mediante un Diagrama

de Venn, estás contribuciones expresadas en forma de área compartida

Figura 8.13 Diagrama de Venn para un modelo de regresión con dos variables independientes

Tomando como referencia el diagrama de la Figura 8.13, las equivalencias entre las zonas designadas

con letras y los cuadrados de los coeficientes de correlación semiparcial, son las siguientes:

Page 39: [TEMA 8] Análisis de Regresión Lineal Simple y Múltiple

39

+ � *�U� � H�.U�� ����

(8.40) � � *��� � H�.U�� ��U�

siendo:

�=.�~~ � � % � % � �=�~ � � % � �=~~ � � % �

Para el ejemplo numérico que sirve de base a la explicación, los cálculos de los coeficientes de

correlación semiparcial son los siguientes:

*�U � 0,4406 0,6285� 0,0431�1 0,0431�� � 0,4681

*�� � 0,6285 0,4406� 0,0431�1 0,0431�� � 0,6481

Estos valores elevados al cuadrado dan la proporción de varianza compartida por cada

predictora habiendo eliminado el influjo de la otra predictora sobre la misma.

+ � *�U� � 0,4681� � 0,2191

� � *��� � 0,6481� � 0,4200

El valor 0,46812 (0,2191) es a en el diagrama de la Figura 8.13, y 0,6481

2 (0,4200) es b. Estos dos

valores representan la contribución exclusiva que cada variable hace a la explicación de la dependiente.

La porción c, es la proporción de varianza de la VD estimada conjuntamente (es decir, de forma

redundante) por las dos variables. Sin embargo esta proporción es de muy difícil interpretación.

El otro coeficiente que se calcula en los modelos de regresión, y que además sirve para determinar

cuál es la primera variable que se incorpora al modelo cuando se realiza variable a variable3, es el

denominado coeficiente de correlación parcial, pr. La diferencia con el semiparcial es que en el parcial

3 Hay varios métodos para la introducción de variables en el análisis de regresión. Uno de estos métodos es el

denominado Stepwise (Pasos Sucesivos) y en él se introduce en primer lugar la variable con mayor correlación con

el criterio, y a partir de ahí, sucesivamente la variable que mayor correlación parcial tenga con el criterio. El

proceso de introducción de variable se detiene cuando la siguiente variable independiente que va a entrar no

aporta un plus significativo a la explicación de la VD.

Page 40: [TEMA 8] Análisis de Regresión Lineal Simple y Múltiple

40

se elimina el influjo de los predictores tanto de la VI objeto de correlación como de la VD. Es decir, es

una correlación entre residuos.

En el modelo de dos variables, si se ajusta una recta entre Y y X2, y nos quedamos con los residuos, y

si se ajusta una recta entre X1 y X2, y nos quedamos también con los residuos, podemos correlacionar

ambos residuos. De esta forma obtendremos la correlación parcial entre Y y X1. A partir de aquí se ve

claro que esta es la correlación “pura” entre dos variables, puesto que de ambas se ha extraído el influjo

de terceras variables. Al igual que en la correlación semiparcial, no es necesario el cálculo de los

residuos, pues se pueden obtener a partir de los correlaciones de orden cero entre pares de variables.

)�U � ��U ����U�1 ���� 1 �U��

(8.41) )�� � ��� ��U�U�1 ��U� 1 �U��

El cuadrado de estos coeficientes (p.e. pr1) se interpreta como la proporción de la varianza de la VD

(Y) no asociada con X2 que sí está asociada a X1.

Otra manera de calcular esta proporción de varianza es por medio de las porciones representadas en

el diagrama de Venn de la Figura 8.13.

)�U� � ++ % , � H�.U�� ����1 ����

(8.42)

)��� � �� % , � H�.U�� ��U�1 ��U�

Aplicando las fórmulas a los datos del ejemplo, los coeficientes son:

)�U � 0,441 0,628� 0,043�1 0,628�1 0,043�� � 0,6018 ; )�U� � 0,6018� � 0,3622

)�� � 0,628 0,441� 0,043�1 0,441�1 0,043�� � 0,7219 ; )��� � 0,7219� � 0,5211

Si se hubiera realizado una regresión paso a paso, es decir, introduciendo las variables por su relación

con la VD, la primera que habría entrado en el modelo hubiera sido la variable X2 (en el ejemplo,

Razonamiento abstracto) que es la que presenta mayor correlación con la VD.

En resumen, por los resultados del coeficiente de correlación parcial y semiparcial al cuadrado, en el

modelo obtenido está clara la contribución de ambas variables a la explicación de la puntuación en

matemáticas. El cuadrado de los coeficientes pr señala la proporción de varianza de una VI asociada con

la parte de la VD que no está asociada con la otra VI. En nuestro caso es mayor la de razonamiento

abstracto que la de tiempo de estudio (52,11% y 36,22%, respectivamente). Además, el modelo es

bueno (luego veremos su significación estadística, por medio de los contrastes) porque ambas variables

independientes tienen una buena relación con la dependiente, y sin embargo, entre ellas no hay apenas

Page 41: [TEMA 8] Análisis de Regresión Lineal Simple y Múltiple

41

relación (es, pues, un modelo casi ideal4). ¿Cómo se manifiesta numéricamente la ausencia de relación

entre las variables independientes?, pues sencillamente en que el coeficiente de determinación, R2

(0,6141), tiene un valor aproximado (siempre menor) que la suma de los cuadrados de los coeficientes

de correlación semiparcial (0,2191+0,4200 = 0,6391 < 0.6141). La diferencia entre ambos valores es la

parte redundante del diagrama de Venn (zona c) que el modelo de regresión elimina cuando se ajusta

con el conjunto completo de variables independientes.

4 Los datos del ejemplo son ficticios y han sido simulados para lograr este efecto de correlación media-alta de

las variables predictoras con la VD y ausencia de correlación entre las predictoras. En análisis de regresión, cuando

las VI’s correlacionan se dice que hay “colinealidad”, y cuanto mayor es ésta peor es el modelo de regresión.

Page 42: [TEMA 8] Análisis de Regresión Lineal Simple y Múltiple

42

EL RESTO DEL CAPÍTULO (HASTA LOS EJERCICIOS DE AUTOEVALUACIÓN) ES OPCIONAL

8.4.4 Inferencias sobre la Regresión Múltiple

Siguiendo el mismo proceso que en el caso de la regresión simple, el contraste se puede realizar bien

a través de la confección de los intervalos de confianza o bien mediante estadísticos de contraste, como

la F de la tabla del ANOVA, resultado del cociente entre la media cuadrática de la regresión y la media

cuadrática de los residuos.

El IC para R2 (Olkin y Finn, 1995), se construye a partir del error típico de R

2, cuya expresión es la

siguiente:

P�B � Q4H� 1 H��� � ) 1�� �� 1� � % 3� (8.43)

siendo n el número de observaciones en la muestra y p el número de variables independientes.

Aplicado a los datos del ejemplo,

P�B � Q 4� 0,6141� 1 0,6141�� 15 2 1�� 15� 1� 15 % 3� � 0,1143

siendo el IC de R2 al 95%: 0,6141 ± (2,16)(0,1143) = (0,367 ; 0,861) siendo 2,16 es el valor crítico de la

distribución t con 15-2 = 13 grados de libertad. A partir de estos límites se rechazaría la hipótesis nula de

que R2 en la población es igual a 0 ya que los límites no incluyen este valor.

Al mismo resultado llegaremos a través del estadístico F de la tabla ANOVA, valor que, además de

obtenerse como el cociente de las medias cuadráticas de la regresión y del residuo, se puede calcular

también con la siguiente fórmula basada en R2:

W � H�·U�� � ) 1� 1 H�·U�� �) (8.44)

Aplicando a los datos del ejemplo:

W � 0,6141 15 2 1� 1 0,6141� 2� � 9,548

Igual al que se obtiene en la tabla del ANOVA (Tabla 8.11)

Tabla 8.11

Estadísticos de la regresión de los datos de la Tabla 8.7, y contraste de R2

Estadísticas de la regresión

Coeficiente de correlación múltiple 0,7836

Coeficiente de determinación R2

0,6141

Page 43: [TEMA 8] Análisis de Regresión Lineal Simple y Múltiple

43

R2 ajustado 0,5498

Error típico residual (P<) 5,2078*

Observaciones 15

ANOVA de la Regresión

FV SC GL MC F Prob.

Regresión 517,968 2 258,984 9,549 0,003

Residuos 325,451 12 27,121

Total 843,333 14

* El valor de P< es la raíz cuadrada de la MC de los residuos.

Respecto de los coeficientes de regresión parcial, tanto estandarizados como no estandarizados

el contraste se realiza del mismo modo que en la regresión simple, y la diferencia estriba en que hay que

calcular un error típico para cada coeficiente de cada variable independiente. La fórmula es la siguiente:

Pl� � 8�87 Q 11 H7� Q 1 H�.U��� ) 1 (8.45)

donde H�.U�� es el coeficiente de determinación, H7�, es el coeficiente de determinación de la regresión

de la variable predictora i respecto del resto de variables predictoras; es decir, la proporción de varianza

de la predictora i explicada por una combinación óptima del resto de predictoras (en el caso del

ejemplo, al ser sólo dos las predictoras, el valor de H7� es el mismo para calcular el error típico de ambos

coeficientes de regresión parcial). Por último, SY es la desviación típica de la variable dependiente y Si es

la desviación típica del predictor i.

Para los datos del ejemplo los errores típicos para contrastar los coeficientes de regresión parcial

son:

7275,01215

6141,01

)043,0(1

1

91,1

76,7

1

1

1

12

2

12

2

121

1=

−−

−−=

−−

−=

pn

R

rS

S Y

X

YBσ

4391,01215

6141,01

)043,0(1

1

17,3

76,7

1

1

1

12

2

12

2

122

1=

−−

−−=

−−

−=

pn

R

rS

SY

X

YB

σ

A partir de estos valores es sencillo calcular el IC para cada coeficiente de regresión, y comprobar si

dentro del intervalo se encuentra el valor 0. Si no es el caso, se rechazará la hipótesis nula de que los

coeficientes en la población son igual a cero. En la Tabla 8.12 se presenta el resultado de estos

contrastes.

Tabla 8.12 Contrastes de los coeficientes de regresión parcial*

Coeficientes Error típico t Prob. Li (95%) Ls (95%)

Page 44: [TEMA 8] Análisis de Regresión Lineal Simple y Múltiple

44

Horas Estudio 1,8991 0,7275 2,6102 0,0228 0,3139 3,4842

Test

Razonamiento 1,5868 0,4391 3,6138 0,0036 0,6300 2,5435

* Los límites, se obtienen restando y sumando al valor del coeficiente, el producto entre el error típico y el valor de t para un

nivel de confianza del 95% y n-p-1 grados de libertad (en el caso del ejemplo, este valor es 2,179). No se ha incluido el contraste

de la constante

Por último, quedaría el contraste de las correlaciones parcial y semiparcial. Como se han visto en la

fórmulas estos dos coeficientes difieren en su cálculo solo en el denominador por lo que o los dos son

igual a cero o los dos son diferentes de cero. Por ello, el estadístico de contraste se calcula sólo para uno

de los coeficientes, en este caso el semiparcial. La fórmula es:

/7 � *�7Q� ) 11 H�� (8.46)

donde sri es la correlación semiparcial entre la variable i y la variable dependiente.

Para los datos del ejemplo, los valores de t para los dos coeficientes de correlación semiparcial son:

/U � 0,4681Q15 2 11 0,6141 � 2,6102

/� � 0,6481Q15 2 11 0,6141 � 3,6138

Que son los valores del estadístico t para los coeficientes de regresión parcial que se muestran en la

Tabla 8.12.

8.5 Ejercicio práctico

Una vez explicados los fundamentos básicos del análisis de regresión (hemos dejado al margen los

diferentes métodos que hay para desarrollar el análisis, el estudio de los casos de influencia o el análisis

de los residuos, por exceder el alcance de este curso) es importante que el lector vea una salida de

resultados de una análisis de regresión realizado con un programa informático de análisis estadístico, e

identificar los elementos que se han expuesto en el capítulo.

Los datos de este ejercicio está adaptado del texto de Hair, Anderson, Tatham y Black (2001)

“Análisis Multivariado”, y se refieren al estudio que una empresa ficticia (HATCO) realiza para

determinar el nivel de fidelidad de sus clientes, a partir de un conjunto de variables predictoras o

independientes, todas ellas cuantitativas, que se presentan en el Cuadro 8.2. El término Métrica, a la

derecha del nombre de la variable, señala que es una variable de tipo cuantitativo.

Cuadro 8.2 Características de las variables del ejercicio

Page 45: [TEMA 8] Análisis de Regresión Lineal Simple y Múltiple

45

X1 Velocidad de entrega Métrica

X2 Nivel de precios Métrica

X3 Flexibilidad de precios Métrica

X4 Imagen del fabricante Métrica

X5 Servicio conjunto Métrica

X6 Imagen de fuerza de ventas Métrica

X7 Calidad de producto Métrica

X8 Nivel de fidelidad Métrica

X9 Nivel de satisfacción Métrica

Percepciones de HATCO

Cada una de estas variables, excepto el Nivel de fidelidad (X8), se midió con una escala de

puntuación gráfica donde se dibujó una línea entre dos puntos separados por diez centímetros que se

denominaron «Pobre» y «Excelente»:

Pobre Excelente

Los encuestados señalan su percepción haciendo una marca en la línea. La marca se mide y se

registra la distancia desde el punto que se consideró cero, en este caso, “Pobre”. La medición se realizó en centímetros. El resultado fue una escala que iba desde cero a diez, redondeado a un único decimal. Los siete atributos de HATCO puntuados por los encuestados y que sirven de VI’s son los siguientes:

X1 Velocidad de entrega: tiempo que transcurre hasta que se entrega el producto, una vez que

se hubo confirmado el pedido.

X2 Nivel de precio: nivel de precios percibido por los clientes industriales.

X3 Flexibilidad de precios: la disposición percibida en los representantes de HATCO para negociar el precio de todas las compras.

X4 Imagen del fabricante: imagen conjunta del fabricante/distribuidor.

X5 Servicio: nivel conjunto de servicio necesario para mantener una relación satisfactoria entre el vendedor y el comprador.

X6 Imagen de la fuerza de ventas: imagen conjunta de la fuerza de ventas del fabricante.

X7 Calidad del producto: nivel de calidad percibido en un producto particular (por ejemplo, el acabado o el rendimiento).

X9 Nivel de satisfacción: satisfacción del comprador con las compras anteriores realizadas a HATCO, medidas en el mismo gráfico de la escala de clasificación de las entradas X1 a X7

La VD es:

X8 Nivel de fidelidad: cuánto se compra a HATCO del total del producto de la empresa, medido

en una escala porcentual, que va desde 0 al 100 por cien.

Page 46: [TEMA 8] Análisis de Regresión Lineal Simple y Múltiple

46

Page 47: [TEMA 8] Análisis de Regresión Lineal Simple y Múltiple

47

Datos del ejercicio de Análisis de Regresión Múltiple

id x1 x2 x3 x4 x5 x6 x7 x8 x9 id x1 x2 x3 x4 x5 x6 x7 x8 x9

1 4,10 0,60 6,90 4,70 2,40 2,30 5,20 32,00 4,20

36 3,10 1,90 10,00 4,50 2,60 3,20 3,80 55,00 4,90

2 1,80 3,00 6,30 6,60 2,50 4,00 8,40 43,00 4,30

37 3,40 3,90 5,60 5,60 3,60 2,30 9,10 43,00 4,70

3 3,40 5,20 5,70 6,00 4,30 2,70 8,20 48,00 5,20

38 5,40 2,10 8,00 3,00 3,80 1,40 5,20 53,00 3,80

4 2,70 1,00 7,10 5,90 1,80 2,30 7,80 32,00 3,90

39 3,70 0,70 8,20 6,00 2,10 2,50 5,20 41,00 5,00

5 6,00 0,90 9,60 7,80 3,40 4,60 4,50 58,00 6,80

40 4,50 4,10 6,30 5,90 4,30 3,40 8,80 50,00 5,50

6 1,90 3,30 7,90 4,80 2,60 1,90 9,70 45,00 4,40 41 2,80 2,40 6,70 4,90 2,50 2,60 9,20 32,00 3,70

7 4,60 2,40 9,50 6,60 3,50 4,50 7,60 46,00 5,80 42 3,80 0,80 8,70 2,90 1,60 2,10 5,60 39,00 3,70

8 1,30 4,20 6,20 5,10 2,80 2,20 6,90 44,00 4,30

43 2,90 2,60 7,70 7,00 2,80 3,60 7,70 47,00 4,20

9 5,50 1,60 9,40 4,70 3,50 3,00 7,60 63,00 5,40

44 4,90 4,40 7,40 6,90 4,60 4,00 9,60 62,00 6,20

10 4,00 3,50 6,50 6,00 3,70 3,20 8,70 54,00 5,40

45 4,30 1,80 7,60 5,40 3,10 2,50 4,40 46,00 5,60

11 2,40 1,60 8,80 4,80 2,00 2,80 5,80 32,00 4,30

46 2,30 4,50 8,00 4,70 3,30 2,20 8,70 50,00 5,00

12 3,90 2,20 9,10 4,60 3,00 2,50 8,30 47,00 5,00

47 3,10 1,90 9,90 4,50 2,60 3,10 3,80 54,00 4,80

13 2,80 1,40 8,10 3,80 2,10 1,40 6,60 39,00 4,40

48 5,10 1,90 9,20 5,80 3,60 2,30 4,50 60,00 6,10

14 3,70 1,50 8,60 5,70 2,70 3,70 6,70 38,00 5,00

49 4,10 1,10 9,30 5,50 2,50 2,70 7,40 47,00 5,30

15 3,20 4,10 5,70 5,10 3,60 2,90 6,20 38,00 4,40 50 1,10 2,00 7,20 4,70 1,60 3,20 10,00 40,00 3,40

16 4,90 1,80 7,70 4,30 3,40 1,50 5,90 40,00 5,60

51 3,70 1,40 9,00 4,50 2,60 2,30 6,80 45,00 4,90

17 4,70 1,30 9,90 6,70 3,00 2,60 6,80 55,00 6,00

52 4,20 2,50 9,20 6,20 3,30 3,90 7,30 59,00 6,00

18 3,30 0,90 8,60 4,00 2,10 1,80 6,30 41,00 4,50

53 1,60 4,50 6,40 5,30 3,00 2,50 7,10 46,00 4,50

19 3,00 4,00 9,10 7,10 3,50 3,40 8,40 55,00 5,20

54 5,30 1,70 8,50 3,70 3,50 1,90 4,80 58,00 4,30

20 2,40 1,50 6,70 4,80 1,90 2,50 7,20 36,00 3,70

55 2,30 3,70 8,30 5,20 3,00 2,30 9,10 49,00 4,80

21 2,40 1,50 6,60 4,80 1,90 2,50 7,20 36,00 3,70

56 5,60 2,20 8,20 3,10 4,00 1,60 5,30 55,00 3,90

22 5,20 1,30 9,70 6,10 3,20 3,90 6,70 54,00 5,80 57 5,20 1,30 9,10 4,50 3,30 2,70 7,30 60,00 5,10

23 3,50 2,80 9,90 3,50 3,10 1,70 5,40 49,00 5,40 58 1,00 1,90 7,10 4,50 1,50 3,10 9,90 39,00 3,30

24 3,00 3,20 6,00 5,30 3,10 3,00 8,00 43,00 3,30 59 4,50 1,60 8,70 4,60 3,10 2,10 6,80 56,00 5,10

25 2,80 3,80 8,90 6,90 3,30 3,20 8,20 53,00 5,00

60 2,30 3,70 7,60 5,00 3,00 2,50 7,40 37,00 4,40

26 5,20 2,00 9,30 5,90 3,70 2,40 4,60 60,00 6,10

61 2,60 3,00 8,50 6,00 2,80 2,80 6,80 53,00 5,60

27 3,40 3,70 6,40 5,70 3,50 3,40 8,40 47,00 3,80

62 2,50 3,10 7,00 4,20 2,80 2,20 9,00 43,00 3,70

28 2,40 1,00 7,70 3,40 1,70 1,10 6,20 35,00 4,10

63 2,10 3,50 7,40 4,80 2,80 2,30 7,20 36,00 4,30

Page 48: [TEMA 8] Análisis de Regresión Lineal Simple y Múltiple

48

29 1,80 3,30 7,50 4,50 2,50 2,40 7,60 39,00 3,60

64 2,90 1,20 7,30 6,10 2,00 2,50 8,00 34,00 4,00

30 4,00 0,90 9,10 5,40 2,40 2,60 7,30 46,00 5,10 65 4,30 2,50 9,30 6,30 3,40 4,00 7,40 60,00 6,10

31 0,00 2,10 6,90 5,40 1,10 2,60 8,90 29,00 3,90 66 3,10 4,20 5,10 7,80 3,60 4,00 5,90 43,00 5,20

32 1,90 3,40 7,60 4,60 2,60 2,50 7,70 40,00 3,70

67 1,90 2,70 5,00 4,90 2,20 2,50 8,20 36,00 3,60

33 4,90 2,30 9,30 4,50 3,60 1,30 6,20 53,00 5,90

68 4,00 0,50 6,70 4,50 2,20 2,10 5,00 31,00 4,00

34 5,00 1,30 8,60 4,70 3,10 2,50 3,70 48,00 4,80

69 6,10 0,50 9,20 4,80 3,30 2,80 7,10 60,00 5,20

35 2,00 2,60 6,50 3,70 2,40 1,70 8,50 38,00 3,20

70 2,00 2,80 5,20 5,00 2,40 2,70 8,40 38,00 3,70

Page 49: [TEMA 8] Análisis de Regresión Lineal Simple y Múltiple

49

8.5.1 Resultados

En primer lugar veremos los estadísticos descriptivos de las variables, así como la matriz de

correlaciones, con su significación estadística (como criterio, piense el lector que una probabilidad

mayor de 0,05 supone la aceptación de que, en la población las dos variables en cuestión no están

relacionadas).

Estadísticos descriptivos

Media

Desviación

típica N

Nivel de fidelidad 45,9000 8,97686 70

Velocidad de entrega 3,4114 1,33466 70

Nivel de precios 2,3686 1,17825 70

Flexibilidad de precios 7,8571 1,33694 70

Imagen de fabricante 5,1686 1,07158 70

Servicio conjunto 2,8771 ,72375 70

Imagen de fuerza de ventas 2,6643 ,75662 70

Calidad de producto 7,0743 1,57973 70

Nivel de satisfacción 4,6971 ,85651 70

Nivel de fidelidad

Velocidad de entrega

Nivel de precios

Flexibilidad de precios

Imagen de fabricante

Servicio conjunto

Imagen de fuerza de

ventas Calidad de producto

Nivel de satisfacción

Correlación de Pearson

Nivel de fidelidad

1,000 ,656 ,100 ,564 ,236 ,709 ,277 -,182 ,696

Velocidad de entrega

,656 1,000 -,363 ,512 ,065 ,625 ,087 -,493 ,637

Nivel de precios ,100 -,363 1,000 -,461 ,278 ,490 ,186 ,468 -,004

Flexibilidad de precios

,564 ,512 -,461 1,000 -,038 ,101 ,054 -,415 ,567

Imagen de fabricante

,236 ,065 ,278 -,038 1,000 ,302 ,776 ,196 ,512

Servicio conjunto

,709 ,625 ,490 ,101 ,302 1,000 ,236 -,079 ,599

Imagen de fuerza de ventas

,277 ,087 ,186 ,054 ,776 ,236 1,000 ,185 ,365

Calidad de producto

-,182 -,493 ,468 -,415 ,196 -,079 ,185 1,000 -,282

Nivel de satisfacción

,696 ,637 -,004 ,567 ,512 ,599 ,365 -,282 1,000

Sig. (unilateral)

Nivel de fidelidad

. ,000 ,204 ,000 ,025 ,000 ,010 ,065 ,000

Velocidad de entrega

,000 . ,001 ,000 ,297 ,000 ,237 ,000 ,000

Page 50: [TEMA 8] Análisis de Regresión Lineal Simple y Múltiple

50

Nivel de precios ,204 ,001 . ,000 ,010 ,000 ,061 ,000 ,487

Flexibilidad de precios

,000 ,000 ,000 . ,378 ,202 ,327 ,000 ,000

Imagen de fabricante

,025 ,297 ,010 ,378 . ,006 ,000 ,052 ,000

Servicio conjunto

,000 ,000 ,000 ,202 ,006 . ,024 ,258 ,000

Imagen de fuerza de ventas

,010 ,237 ,061 ,327 ,000 ,024 . ,062 ,001

Calidad de producto

,065 ,000 ,000 ,000 ,052 ,258 ,062 . ,009

Nivel de satisfacción

,000 ,000 ,487 ,000 ,000 ,000 ,001 ,009 .

A continuación, se presenta el modelo ajustado cuando se introducen todas las variables predictoras

simultáneamente (Método Introducir). Primero se muestra el ajuste del modelo y luego los coeficientes.

Ajuste del modelo

R R2 R

2 corregida

Error típico de la estimación

,874a ,764 ,733 4,63769

Tabla ANOVA de la Regresión

Suma de

cuadrados g.l. Media

cuadrática F Sig.

Regresión 4248,304 8 531,038 24,690 ,000

Residual 1311,996 61 21,508

Total 5560,300 69

En la tabla del ANOVA de la Regresión, la probabilidad asociada al valor del estadístico F se denomina

Sig., que quiere decir Significación Estadística, es decir, la probabilidad de encontrar un valor de F igual o

mayor que el obtenido a partir de los datos muestrales.

Por último, se presenta la tabla con los coeficientes de regresión parcial estandarizados y no

estandarizados y su significación estadística. En la misma tabla se muestran los valores de las

correlaciones de orden cero (coeficiente de correlación de Pearson, ya visto en la matriz de

correlaciones) y los coeficientes de correlación parcial y semiparcial.

Coeficientes no estandarizados

Coeficientes tipificados

t Sig.

Correlaciones B Error típ. Beta Orden cero Parcial Semiparcial

(Constante) -8,374 6,165 -1,358 ,179

Velocidad de entrega

-1,537 2,875 -,229 -,535 ,595 ,656 -,068 -,033

Page 51: [TEMA 8] Análisis de Regresión Lineal Simple y Múltiple

51

Nivel de precios

-1,870 2,955 -,245 -,633 ,529 ,100 -,081 -,039

Flexibilidad de precios

3,143 ,686 ,468 4,580 ,000 ,564 ,506 ,285

Imagen de fabricante

-,744 1,098 -,089 -,677 ,501 ,236 -,086 -,042

Servicio conjunto

10,983 5,678 ,886 1,934 ,058 ,709 ,240 ,120

Imagen de fuerza de ventas

1,584 1,237 ,134 1,280 ,205 ,277 ,162 ,080

Calidad de producto

,545 ,454 ,096 1,203 ,234 -,182 ,152 ,075

Nivel de satisfacción

,728 1,453 ,069 ,501 ,618 ,696 ,064 ,031

Dejando al margen la constante o intercepto, cuyo valor no es significativo (Sig. 0,179 > 0,05), hay

sólo dos coeficientes que puede decirse que son significativos: la flexibilidad de los precios y el servicio

conjunto (aunque éste está en el límite de significación). El resto no son estadísticamente relevantes.

¿Qué significa esto? De acuerdo al valor de R2, la combinación de todas las variables independientes

incorporadas al modelo explican el 76,4% del nivel de fidelidad del cliente, pero, a la vista de la

significación de los coeficientes, casi toda esta variabilidad sería explicada por no más de dos variables,

aquellas cuyos coeficientes de regresión parcial resultan significativos, que son las que presentan un

coeficiente de correlación parcial más alto con la VD (0,506 y 0,240).

Con este método de incorporación de todas las variables conjuntamente, en realidad no se puede

determinar cuál es la contribución de cada variable al modelo en términos de varianza explicada, y si

esa contribución resulta o no significativa. Por razón de parsimonia científica, es preferible el método de

introducción sucesiva de variables (denominado, como ya se ha dicho, Stepwise) y que da un ajuste

óptimo del modelo con el menor número de variables. En los siguientes cuadros de resultados veremos

cuál es el modelo final cuando se calcula la regresión con este método. Observe el lector, que hay un

estadístico nuevo en el cuadro de bondad de ajuste, que se denomina Cambio en R cuadrado, que

especifica el aumento en este estadístico cada vez que se introduce una variable. La introducción de

variables se detiene cuando la siguiente que debería de entrar no aporta un incremento significativo en

el R cuadrado.

8.5.2 Método Stepwise (Pasos Sucesivos)

Además de los cuadros con los estadísticos descriptivos y la matriz de correlaciones, el primer cuadro

que se muestra en la salida de resultados es el de la lista de variables introducidas en el modelo en los

diferentes pasos.

Page 52: [TEMA 8] Análisis de Regresión Lineal Simple y Múltiple

52

Variables introducidas/eliminadas

Modelo Variables

introducidas Variables

eliminadas Método

1 Servicio conjunto . Por pasos

criterio:

Prob. de F para entrar <= ,050,

Prob. de F para salir >= ,100.

2 Flexibilidad de precios

. Por pasos

criterio:

Prob. de F para entrar <= ,050,

Prob. de F para salir >= ,100.

La variable Servicio Conjunto es la que mayor correlación tiene con la VD (0,709), es decir, la variable

que explica más proporción de varianza de ésta. El programa ajusta un primer modelo en el que sólo

incluye esta variable. Una vez introducida esta variable (Servicio conjunto) comprueba cuál de las demás

variables correlaciona más con la parte no explicada del primer modelo ajustado, o sea, con los residuos,

y esta resulta ser la Flexibilidad de precios5. Entonces el programa, antes de incorporar esta variable al

modelo, calcula si el cambio que se va a producir en R2 es o no significativo; si lo es, rehace el modelo

con las dos variables conjuntamente y si no el proceso se detiene y tendríamos un modelo con el

número de variables que producen cambios significativos en R2. En este caso, el cambio sí es

significativo y así se puede ver en la siguiente tabla.

Modelo R R

cuadrado

R cuadrado corregida

Error típ. de la estimación

Estadísticos de cambio

Cambio en R cuadrado Cambio en F gl1 gl2

Sig. Cambio en F

1 ,709a ,502 ,495 6,37899 ,502 68,645 1 68 ,000

2 ,864b ,747 ,740 4,58006 ,245 64,908 1 67 ,000

Tabla del ANOVA para los diferentes modelos ajustados

Modelo Suma de

cuadrados gl Media

cuadrática F Sig.

1 Regresión 2793,280 1 2793,280 68,645 ,000

Residual 2767,020 68 40,691

Total 5560,300 69

2 Regresión 4154,843 2 2077,422 99,033 ,000

5 En concreto lo que el programa hace es que, una vez que ha incorporado la primera, realiza un ajuste de

regresión entre cada VI y el resto, y entre estas y la VD, y luego correlaciona los residuos. Los residuos de la VI que

correlacione más con los residuos de la VD es la siguiente en entrar en el modelo.

Page 53: [TEMA 8] Análisis de Regresión Lineal Simple y Múltiple

53

Residual 1405,457 67 20,977

Total 5560,300 69

Modelo

Coeficientes no estandarizados

Coeficientes tipificados

t Sig.

Correlaciones

B Error típ. Beta Orden cero Parcial Semiparcial

1 (Constante) 20,607 3,147 6,549 ,000

Servicio conjunto

8,791 1,061 ,709 8,285 ,000 ,709 ,709 ,709

2 (Constante) -3,835 3,783 -1,014 ,314

Servicio conjunto

8,165 ,766 ,658 10,663 ,000 ,709 ,793 ,655

Flexibilidad de precios

3,340 ,415 ,497 8,057 ,000 ,564 ,701 ,495

El valor del cambio en R2 al incorporar la variable Flexibilidad de Precios es exactamente el cuadrado

de su coeficiente de correlación semiparcial (0,4952 = 0,245) y ese es el significado de sr

2: aumento en la

proporción de varianza explicada cuando se incorpora esa variable al modelo.

Lógicamente, el criterio para incorporar una nueva variable al modelo es que el cambio en R2 sea

significativo, y se contrasta con el estadístico

W � H����7O� ^ ) 1�� 1 H�� � 0,245 70 2 1� 1� 1 0,747� � 64,908

donde q es el número de nuevas variables que entran en el modelo.

Otro método de construcción del modelo óptimo es el introducir al principio todas las variables

predictoras en el modelo e ir sacando una a una hasta quedarse con las que realmente estiman

significativamente la VD. Este método se denomina Eliminación hacia Atrás, y en el cuadro siguiente

podemos ver el cambio que se produce en R2 a medida que se eliminan variables. Al principio están las

ocho predictoras (por eso el valor 8 de grados de libertad en gl1), y luego se van eliminando según que

tengan una menor correlación parcial con el nivel de fidelidad. Al final se queda el modelo en sólo dos

predictoras, igual que en el método de pasos sucesivos. Lo interesante de esta tabla es que ningún

decremento de R2 es realmente significativo. No obstante, a partir del modelo 7 (con las dos variables

conocidas, servicio conjunto y flexibilidad de precios), si se extrajera una de las dos variables el cambio

sí sería significativo, y esa es la razón por la que el proceso se para.

Page 54: [TEMA 8] Análisis de Regresión Lineal Simple y Múltiple

54

Resumen del modelo

Modelo R R

cuadrado

R cuadrado corregida

Error típ. de la

estimación

Estadísticos de cambio

Cambio en R

cuadrado Cambio

en F gl1 gl2

Sig. Cambio

en F

1 ,874a ,764 ,733 4,63769 ,764 24,690 8 61 ,000

2 ,874b ,763 ,736 4,60960 -,001 ,251 1 61 ,618

3 ,873c ,762 ,740 4,58100 -,001 ,221 1 62 ,640

4 ,873d ,762 ,743 4,55177 -,001 ,186 1 63 ,668

5 ,872e ,760 ,746 4,52720 -,001 ,300 1 64 ,586

6 ,870f ,757 ,746 4,52808 -,004 1,026 1 65 ,315

7 ,864g ,747 ,740 4,58006 -,009 2,547 1 66 ,115

a. Variables predictoras: (Constante), Nivel de satisfacción, Nivel de precios, Imagen de fuerza de ventas, Calidad de producto, Flexibilidad de precios, Velocidad de entrega, Imagen de fabricante, Servicio conjunto

b. Variables predictoras: (Constante), Nivel de precios, Imagen de fuerza de ventas, Calidad de producto, Flexibilidad de precios, Velocidad de entrega, Imagen de fabricante, Servicio conjunto

c. Variables predictoras: (Constante), Nivel de precios, Imagen de fuerza de ventas, Calidad de producto, Flexibilidad de precios, Velocidad de entrega, Servicio conjunto

d. Variables predictoras: (Constante), Nivel de precios, Imagen de fuerza de ventas, Calidad de producto, Flexibilidad de precios, Servicio conjunto

e. Variables predictoras: (Constante), Imagen de fuerza de ventas, Calidad de producto, Flexibilidad de precios, Servicio conjunto

f. Variables predictoras: (Constante), Imagen de fuerza de ventas, Flexibilidad de precios, Servicio conjunto

g. Variables predictoras: (Constante), Flexibilidad de precios, Servicio conjunto

Otro detalle de interés son los valores del Error Típico de Estimación, que es mayor cuando están

todas las variables independientes en el modelo que cuando sólo están las dos realmente explicativas. El

error es pensar que cuantas más variables tengamos mejor se explica la VD, pero se ve claramente que

no es el caso. Para estos datos, el error aumenta proporcionalmente el 1,26% (4,63769 - 4,58006)/

4,58006 = 0,0126) de tener las dos predictoras en el modelo a tener las ocho.

En resumen, aparte de las variables mencionadas, el resto de variables no aportan cambios

significativos a la explicación de la VD y por tanto no son tenidos en cuenta en el modelo. Por tanto, la

fidelidad de los clientes de la empresa estudiada es función, sobre todo, del Servicio Conjunto que

ofrece la empresa, lo que explica un 50,2% de la fidelidad mientras que la percepción de la flexibilidad

de precios añade un 24,5% más a la explicación, lo cual hace que entre ambas se explique el 74,7% de la

fidelidad. A partir de estos resultados, los analistas y directivos de la empresa tienen bastantes

elementos para diseñar una estrategia de fidelización actuando sobre las variables que según los

clientes no añaden valor a ésta.

Page 55: [TEMA 8] Análisis de Regresión Lineal Simple y Múltiple

55

8.6 Resumen

El análisis de los diseños ex post facto trata de determinar cómo un conjunto de variables, que

llamamos independientes, predictoras o explicativas, pueden explicar el comportamiento de la variable

objeto de estudio, que llamamos dependiente o criterio. Ello se ha realizado en tres pasos:

• Ajuste del modelo de regresión para estimar la VD. Sólo se han tratado ajustes de modelo

lineales, es decir, modelos en que la VD es una función lineal de la o las VI’s. Cuando sólo hay

una VI, el modelo se conoce como de Regresión Lineal Simple y cuando hay varias VI’s, como

de Regresión Lineal Múltiple.

• Cálculo de la bondad del modelo ajustado. El estadístico que cuantifica el ajuste se

denominado coeficiente de determinación y su valor oscila entre 0 y 1, e informa de la

proporción en que la o las VI’s explican la VD. En el caso de la regresión simple, este valor es

el cuadrado del coeficiente de correlación de Pearson, y en el caso de la regresión múltiple

este valor es el cuadrado del coeficiente de correlación múltiple. La parte no explicada por el

modelo de regresión es aquella que no está relacionada linealmente con la VD.

• Contraste de significación de los estadísticos del modelo: Coeficiente de determinación,

coeficientes de regresión parcial y, en el caso de la regresión múltiple, coeficientes de

correlación semiparcial y parcial. Para el coeficiente de determinación, R2, el contraste se

basa en la comparación de las medias cuadráticas de la regresión y las medias cuadráticas del

error, expresado este contraste mediante la tabla del ANOVA. Además, se ha visto cómo

realizar los contrastes de los coeficientes de regresión parcial y de correlación semiparcial y

parcial.

Los diferentes coeficientes que han aparecido en el capítulo son:

• R, que expresa la correlación entre la VD (Y) y la mejor función lineal de las VI’s (Xi’s)

• R2, que se interpreta como la proporción de varianza de VD asociada a la combinación lineal

de las VI’s. También se interpreta como la reducción proporcional del error inicial de la VD

cuando se ajusta un modelo de estimación con las VI’s.

• sri, coeficiente de correlación semiparcial, expresa la correlación entre Y y Xi, cuando de ésta

se ha extraído la que mantiene con el resto de Xi’s.

• sri2, proporción de varianza de Y asociada únicamente la varianza de Xi, y expresa el

incremento en R2 cuando la variable Xi entra en el modelo

• pri, expresa la correlación “pura” entre Y y Xi. Es decir, expresa la correlación entre la parte

de Y no asociada linealmente con el resto de predictoras y la porción de Xi no asociada

linealmente con el resto de predictoras.

• pri2, expresa la proporción de varianza de Y no asociada al resto de X que sí está asociada con

Xi.

Por último, se ha planteado un ejercicio con un conjunto de datos para ver cómo se interpreta una

salida de resultados del análisis realizado con un programa informático.

Page 56: [TEMA 8] Análisis de Regresión Lineal Simple y Múltiple

56

8.7 Ejercicio de Autoevaluación

Todas las preguntas están relacionadas con datos de una investigación (ficticia, con datos simulados)

en la que se trata de determinar la influencia que sobre el resultado en las pruebas para acceder a un

puesto de trabajo especializado tienen una serie de variables, como son los días que asisten a tutoría en

una escuela de formación para ese tipo de profesionales (variable X1), y la expectativa de empleo que

manifiestan los sujetos (variable X2), variables todas ellas cuantitativas o métricas. Como variable

dependiente se toma, como se ha señalado, el resultado en una prueba en términos de puntuación

obtenida (variable Y). Los datos de 25 personas son los siguientes:

X1 X2 Y

31 9 108

41 6 86

20 9 80

41 7 79

40 9 96

28 9 79

41 9 98

37 8 86

41 6 89

39 11 92

56 9 111

43 11 102

42 10 89

36 7 90

36 13 112

32 7 83

49 8 104

45 11 98

20 10 88

33 11 106

39 13 110

19 10 92

27 12 92

17 11 81

29 13 103

Para facilitar los cálculo, en las siguientes dos tablas presentamos los estadísticos descriptivos de

cada variable, y la matriz de correlaciones

Page 57: [TEMA 8] Análisis de Regresión Lineal Simple y Múltiple

57

Estadísticos descriptivos

X1 X2 Y

Suma 882 239 2354

Media 35,2800 9,5600 94,1600

Desv. Típica 9,7105 2,0833 10,5423

Varianza 94,2933 4,3400 111,1400

Matriz de correlaciones de orden cero

X1 X2 Y

X1 -0,231 0,436

X2 0,504

Y

8.7.1 Preguntas

1. ¿Cuál es la ecuación de regresión para la predecir el comportamiento de la variable Y a partir

de la variable X1?

a. Y’ = 77,465 + 0,473X1 (*)

b. Y’ = 35,465 + 0,573X1

c. Y’ = 77,465 + 0,743X1

2. ¿Cuál es la ecuación de regresión para la predecir el comportamiento de la variable Y a partir

de la variable X2?

a. Y’ = 44,236 + 1,873X2

b. Y’ = 69,768 + 2,551X2 (*)

c. Y’ = 77,465 + 0,743X1

3. El coeficiente de correlación múltiple del modelo Y’ = B0 + B1X1 + B2X2 para los datos

propuestos es:

a. 0,874

b. 0,759 (*)

c. 0,576

4. El coeficiente R2 ajustado para los datos es:

a. 0,594

b. 0,512

c. 0,538 (*)

5. Siguiendo el método de Pasos Sucesivos (Stepwise) para lograr el mejor ajuste, ¿qué cambio

se produce en R2 cuando se incorpora la segunda variable?

a. 0,322 (*)

b. 0,254

Page 58: [TEMA 8] Análisis de Regresión Lineal Simple y Múltiple

58

c. 0,222

6. La ecuación de regresión múltiple estandarizada para los datos es:

a. �5� � 0,423�U % 1,436��

b. �5� � 1,014�U % 0,872��

c. �5� � 0,583�U % 0,639�� (*)

7. La varianza de los errores una vez ajustado el modelo de regresión múltiple es:

a. 47,109 (*)

b. 64,031

c. 111,140

8. El error típico de estimación del modelo ajustado es:

a. 7,891

b. 7,169 (*)

c. 8,235

9. La correlación entre la variable dependiente Y y la predictora X1, una vez que se ha eliminado

el influjo de X2 sobre ambas variables, es:

a. 0,659 (*)

b. 0,567

c. 0,621

10. ¿Cuál es la proporción de la varianza de Y asociada a X2, y no asociada a X1

a. 0,234

b. 0,342

c. 0,477 (*)

8.7.2 Solución ejercicios de autoevaluación

Debajo de las respuestas están las operaciones necesarias, a partir de los estadísticos y la matriz de

correlaciones.

Pregunta 1 A

Pregunta 2 B

$U � ��U 8�8�� � 0,436 10,54239,7105 � 0,473

$& � �9 $U�9U � 94,16 0,473� 35,28� � 77,465

$U � ��� 8�8�B � 0,504 10,54232,0833 � 2,5514

$& � �9 $U�9� � 94,16 2,5514� 9,56� � 69,768

Pregunta 3. B

Page 59: [TEMA 8] Análisis de Regresión Lineal Simple y Múltiple

59

H�.U� � Q��U� % ���� 2��U����U�1 �U�� � Q0,436� % 0,504� 2 0,436� 0,504� 0,231�1 0,231�� � 0,759

Pregunta 4. C

H|�.U�� � 1 p1 H�.U�� s � 1� ) 1 � 1 1 0,759�� 25 125 2 1 � 0,538

Pregunta 5. A

H�.U�� ���� � 0,759� 0,504� � 0,322

El método Stepwise, la primera variable en entrar en el modelo sería la X2 pues es la que más

correlaciona con Y

Pregunta 6. C

kU � ��U ����U�1 �U�� � 0,436 0,504� 0,231�1— 0,231�� � 0,583

k� � ��� ��U�U�1 �U�� � 0,504 0,436� 0,231�1— 0,231�� � 0,639

Pregunta 7. A

8�JJOJ� � 1 H�.U�� �8�� � 1 0,759�� 111,14� � 47,109

Pregunta 8. B

P< � Q∑ � �`��� ) 1 � Q 1130,625 2 1 � 7,169

El numerador del cociente dentro de la raíz es la suma de cuadrados de los errores, y se obtienen

mediante

} � �`�� � 8�JJOJ� � 1� � 47,109� 25 1� � 1130,6

Pregunta 9. A

Se trata del coeficiente de correlación parcial entre las variable Y y X1.

)�U � ��U ����U�1 ���� 1 �U�� � 0,436 0,504� 0,231�1 0,504��1— 0,231�� � 0,657

Pregunta 10. C

)��� � � ��� ��U�U�1 ��U� 1 �U�� �� � � 0,504 0,436� 0,231�1 0,436��1— 0,231���� � 0,477

i Recuérdese que la función logarítmica es la inversa de la exponencial. Esto es, si la función exponencial (

nay = ) es el valor de y en función de n (para un valor de la base, a, fijo), la función logaritmo de un número x con

Page 60: [TEMA 8] Análisis de Regresión Lineal Simple y Múltiple

60

base a es la potencia a la que debe elevarse la base para dar x ( yxa

log= ). Cuando se adjetiva el logaritmo

como “natural” significa que la base es el número irracional ...57182818284.2≈e