21
Captulo 1 PrÆcticas y problemas de regresin lineal simple. 1.1. Problemas de regresin lineal simple con ordenador. Problema 4.1. Los datos de la tabla adjunta proporcionan la distancia en lnea recta (LR) y por carretera (DC) entre veinte pares de puntos geogrÆcos (localidades) de She¢ eld. 1. ¿Existe una relacin lineal entre las dos variables? 2. ¿Es sucientemente bueno el modelo de regresin lineal que explica la variable de interØs DC en funcin de la variable regresora LR?. Estimar el modelo de regresin lineal. Calcular intervalos de conanza al 90% para los parÆmetros del modelo. 3. Calcular la tabla ANOVA del modelo. Conclusiones que se obtienen. 4. Predecir la distancia por carretera entre dos ciudades cuya distancia en lnea recta es 25. Calcular un intervalo de prediccin al 90 %. Repetir el apartado si la distancia (LR) es 50. 5. ¿Existe un modelo linealizable mejor? DC LR DC LR DC LR 10 0 7 9 0 5 16 0 6 12 0 1 28 0 8 21 0 6 6 0 5 5 0 0 29 0 0 22 0 0 31 0 2 26 0 5 29 0 4 23 0 0 40 0 5 28 0 2 6 0 5 4 0 8 17 0 2 15 0 2 14 0 2 12 0 1 25 0 7 21 0 7 18 0 4 11 0 4 11 0 7 9 0 8 26 0 5 18 0 0 19 0 7 11 0 8 25 0 6 19 0 0 33 0 1 28 0 0 16 0 3 14 0 6 9 0 5 8 0 3 1

Prácticas y problemas de regresión lineal simple

Embed Size (px)

Citation preview

Page 1: Prácticas y problemas de regresión lineal simple

Capítulo 1

Prácticas y problemas de regresiónlineal simple.

1.1. Problemas de regresión lineal simple con ordenador.

Problema 4.1.�Los datos de la tabla adjunta proporcionan la distancia en línea recta (LR) y por

carretera (DC) entre veinte pares de puntos geográ�cos (localidades) de She¢ eld.

1. ¿Existe una relación lineal entre las dos variables?

2. ¿Es su�cientemente bueno el modelo de regresión lineal que explica la variable deinterés DC en función de la variable regresora LR?. Estimar el modelo de regresiónlineal. Calcular intervalos de con�anza al 90% para los parámetros del modelo.

3. Calcular la tabla ANOVA del modelo. Conclusiones que se obtienen.

4. Predecir la distancia por carretera entre dos ciudades cuya distancia en línea rectaes 25. Calcular un intervalo de predicción al 90%. Repetir el apartado si la distancia(LR) es 50.

5. ¿Existe un modelo linealizable mejor?

DC LR DC LR DC LR1007 905 1606 1201 2808 2106

605 500 2900 2200 3102 2605

2904 2300 4005 2802 605 408

1702 1502 1402 1201 2507 2107

1804 1104 1107 908 2605 1800

1907 1108 2506 1900 3301 2800

1603 1406 905 803

1

Page 2: Prácticas y problemas de regresión lineal simple

2 Modelos estadísticos aplicados. Juan Vilar

Desarrollo del Problema 4.1.

En primer lugar se representa la grá�ca de dispersión de la nube de puntos que permitetener una primera idea acerca de la forma del modelo de regresión. Se utiliza el siguientemódulo de Statgraphics

graficos > graficos de dispersion > grafico x-y

Un estudio detallado del modelo lineal simple ajustado se obtiene en

dependencia > regresion simple

Dentro de este módulo, en el apartado resumen del procedimiento, se obtienela recta de regresión estimada (estimación de los coe�cientes de �0 y �1; desviacionestípicas, lo que permite calcular intervalos de con�anza de los mismos y test de la t). Esteapartado también proporciona la tabla ANOVA y los coe�cientes de determinación. Eneste problema el coe�ciente de correlación es r = 00969, y se concluye que el ajuste lineales bueno.

El apartado predicciones permite calcular predicciones e intervalos de con�anza dela media condicionada y de predicción para una observación determinada.

Si la recta de regresión se quiere comparar con otros modelos �linealizables�se puedehacer en el apartado comparacion de modelos alternativos

Este módulo proporciona la correlación de doce ajustes. Con los datos de este problemalos ajustes �doble recíproco�y �multiplicativo�mejoran ligeramente (en correlación) a laregresión lineal y habría que evaluar la conveniencia de trabajar con ellos. Para calcularel ajuste de alguno de estos modelos �linealizables�se utiliza el apartado de opciones enresumen del procedimiento.

Este módulo también proporciona las observaciones con residuos grandes (residuosatipicos), las observaciones in�uyentes (puntos influyentes) y diferentes grá�cos quepermiten evaluar la bondad del ajuste y el cumplimiento de las hipótesis básicas.

Problema 4.2. (Datos simulados)�Este problema consta de dos partes. En un primer apartado se simula un conjunto de

datos bidimensionales (xi; yi) que siguen un modelo de regresión lineal simple con diseño�jo. En el segundo apartado se estudia el modelo de regresión que mejor se ajusta a losdatos simulados en el apartado anterior.

La variable regresora X toma los valores 5; 8; 12; 15; 20; 22; 25; 27; 30 y 33: Para cadavalor deX se tienen 15 observaciones de la variable respuesta Y; en total, 150 observaciones.Los valores se generan a partir del modelo matemático

Y = 40 + 105X + ";

donde " sigue una distribución N�0; 102

�:

Se seguirán los siguientes pasos:

Page 3: Prácticas y problemas de regresión lineal simple

Prácticas y problemas de regresión lineal simple. 3

1. Generación de la muestra.

2. Hacer un estudio estadístico básico de la variable condicionada Y=X:

3. Calcular la recta de regresión ajustada a las observaciones simuladas: estimación delos parámetros, tabla ANOVA, contraste de regresión y de linealidad, intervalos decon�anza. ¿Se obtienen resultados congruentes, la recta de regresión ajustada estápróxima a la recta generadora de las observaciones?

4. Contrastar las hipótesis estructurales del modelo. ¿Existen datos atípicos?

5. Hacer predicciones para X = 10; 20; 30; 40; 50; 100: Calcular intervalos de con�anzay de predicción.

6. Estudiar otros modelos linealizables.

Desarrollo del Problema 4.2.

Para generar la muestra por simulación se siguen los siguientes pasos:

- Crear la variable valor_x = 5; 8; 12; 15; 20; 22; 25; 27; 30; 33:

- Generar la variable x = rep(15; valor_x):

- Generar la variable recta = 40 + 1; 5 � x:

- Generar la variable error = rnormal(150; 0; 10):

- Obtener la variable respuesta y = recta+ error .

La muestra (simulada) se representa en un grá�co bidimensional según el análisis

graficos > graficos de dispersion > grafico x-y

Como se dispone de varias observaciones de la respuesta para cada valor de X se debehacer un análisis estadístico de la variable condicionada Y=X: Para ello se utiliza el módulo

descripcion > datos numericos > analisis de subgrupo

Introducir codes = x.Igual que en el problema anterior el análisis de regresión se realiza en

dependencia > regresion simple

En este problema se puede hacer una tabla ANOVA más completa y el contraste delinealidad en la opción contraste de falta de ajuste.

El desarrollo del resto del problema es análogo al anterior y como se dispone de unnúmero relativamente grande de observaciones se puede hacer un estudio más completoacerca del cumplimiento de las hipótesis del modelo.

Page 4: Prácticas y problemas de regresión lineal simple

4 Modelos estadísticos aplicados. Juan Vilar

1.2. Problema resuelto de regresión lineal simple.

Problema 4.3.�Los datos de la tabla adjunta muestran el tiempo de impresión (Y ) de trabajos que

se han imprimido en impresoras de la marca PR. Se está interesado en estudiar la relaciónexistente entre la variable de interés �tiempo de impresión de un trabajo� y la variableexplicativa (X) �número de páginas del trabajo�. Utilizando estos datos ajustar un modelode regresión�.

Datos de las impresorasx y x y x y

1

24056 17033 17081

28007 23016 19041

22053 14070

2

29092 17014

37025 31090

31080 41072

24059

3

28086 30001

44073 44043

41032 34016

28079

4

29003 45000 53052

54038 47063 30011

44034 48095

5

52055 69050

55061 52098

65070 40011

45021 46063

6

65039 57048

62085 69009

71044 57029

50042

7

85033 66073 68017

78094 61007 76071

78034 88025 64084

8

83082 75038

69040 84042

80068 60079

100008 74079

9

82090 105073

102013 119082

93093 102030

10

79082 90083 89000

83081 71079 76020

76030

Solución Problema 4.3.Se calculan los estadísticos básicos de las variables X e Y;

n = 75Pni=1 xi = 408 �x = 5044

Pni=1 x

2i = 2;818 x2 = 3705733 s2x = 7

09797 sx = 2082484

Pni=1 yi = 4;321

07 �y = 5706227

Pni=1 y

2i = 296;397 y2 = 3;951096 s2y = 631

0586 sy = 2501313

Pni=1 xiyi = 28;362

05 xy = 3780167 sxy = 6406995

Las estimaciones de los parámetros de la recta de regresión son

�1 =sxys2x

=6406995

709797= 80108:

Page 5: Prácticas y problemas de regresión lineal simple

Prácticas y problemas de regresión lineal simple. 5

�0 = �y � �1�x = 5706227� 80108 � 5044 = 130515

Se calculan las predicciones yi

Prediccionesxi yi xi yi xi yi xi yi xi yi1 210623 3 370839 5 540055 7 700271 9 860487

2 290731 4 450947 6 620163 8 780379 10 940595

La suma de cuadrados de los residuos (scR) se obtiene como

75Xi=1

e2i =75Xi=1

(yi � yi)2 =75Xi=1

�yi �

�130515 + 80108xi

��2= 8025061:

Una forma alternativa, más sencilla, de calcular scR es

75Xi=1

e2i =75Xi=1

y2i � �0

75Xi=1

yi + �1

75Xi=1

xiyi

!= 8025061:

La varianza residual es

s2R =1

n� 2

75Xi=1

e2i =8025061

73= 109094) sR = 10

0485:

Las varianzas de los parámetros son

V ar(�1) =s2Rns2x

=109094

75 � 709797 = 001837) �(�1) = 0

04286:

V ar(�0) =s2Rn

�1 +

�x2

s2x

�=109094

75

�1 +

50442

709797

�= 609022) �(�0) = 2

06272

Intervalos de con�anza (al 90%) y contrastes de hipótesis sobre los parámetros delmodelo son:

Intervalo de con�anza para �2

(n� 2) s2R�2

� �2n�2 ) �273�0005

�� 73 � 109094

�2� �273

�0095

�)

5403245 � 8025062

�2� 9400592)

850325 =8025062

9400592� �2 � 8025062

5403245= 1470735:

Intervalo de con�anza para �1

�1 � �1� (�1)

� tn�2 ) t73�0005

�� 80108� �1

004286� t73

�0095

�)

�106664 � 80108� �1004286

� 106664)

�1 2 80108� 004286 � 106664 = 80108� 007142 =�703938; 808222

�:

Page 6: Prácticas y problemas de regresión lineal simple

6 Modelos estadísticos aplicados. Juan Vilar

Intervalo de con�anza para �0

�0 � �0� (�0)

� tn�2 ) t73�0005

�� 130515� �0

206272� t73

�0095

�)

�106664 � 130515� �0206272

� 106664)

�0 2 130515� 206272 � 106664 = 130515� 40378 =�90137; 170893

�:

Contraste de hipótesis para �1 (H0 : �1 = 0 frente H0 : �1 6= 0)

d1 =�1 � �1� (�1)

jH0 =�1

� (�1)=80108

004286= 180917 � tn�2

) p� valor = P�jt73j > 180917

�= 000000

) Se rechaza H0:

Contraste de hipótesis para �0 (H0 : �0 = 0 frente H0 : �0 6= 0)

d0 =�0 � �0� (�0)

jH0 =�0

� (�0)=130515

206272= 50144 � tn�2

) p� valor = P�jt73j > 50144

�= 000000

) Se rechaza H0:

El coe�ciente de correlación es

r =sxysxsy

=6406995

2082484 � 2501313 = 009113:

En el siguiente grá�co se representa la nube de puntos y la recta ajustada

Figura 4.1. Nube de observaciones y recta ajustada.

Page 7: Prácticas y problemas de regresión lineal simple

Prácticas y problemas de regresión lineal simple. 7

El grá�co de residuos frente a las predicciones se observa en el siguiente grá�co,

Figura 4.2. Grá�co de residuos.

Cálculo de la tabla ANOVA del modelo.

scR =

75Xi=1

e2i = 8;025061;

scG =

75Xi=1

(yi � �y)2 = 75 � s2y = 75 � 6310586 = 47;368095;

scE =

75Xi=1

(yi � �y)2 = scG� scR = 47;368095� 8;025061 = 39;343034;

de donde

Tabla ANOVA

Fuentes de Suma de Grados Varianzas F � test p� valuevariación cuadrados libertad

scE (modelo) 39;343034 1 s2e = 39;343034 F = 357086 000000

scR (Residual) 8025061 73 s2R = 109094 sR = 10

048

scG (Global) 47;368095 74 s2y = 640012 sy = 25

030

Contraste de regresión.

H0;reg : �el modelo de regresión lineal ajustado no es in�uyente�H1 : �el modelo ajustado es in�uyente�

Page 8: Prácticas y problemas de regresión lineal simple

8 Modelos estadísticos aplicados. Juan Vilar

Si H0;reg es correcto s2e � 0: El estadístico del contraste es dreg

dreg =s2es2R=39;343034

109094= 357086 � F1;73

) p� valorreg = P (F1;73 > 357086) = 000000:

Se rechaza H0;reg y se asume que el modelo ajustado es signi�cativo.

Contraste de linealidad. Dado que para cada valor de x se dispone de varias obser-vaciones de Y; se puede hacer el contraste

H0;lin : �el modelo lineal es adecuado�H1 : �el modelo de regresión no es lineal�

Se descompone scR en dos términos:

scR =75Xi=1

e2i =75Xi=1

(yi � yi)2 =75Xi=1

(�yi:�yi)2 +

75Xi=1

(yi � �yi)2 :

scR1 =75Xi=1

(�yi:�yi)2 = 2;765084:

scR2 =

75Xi=1

(yi � �yi)2 = 5;259077:

scR =

75Xi=1

e2i =

75Xi=1

(yi � yi)2 = 2;765084 + 5259077 = 8;025061:

La nueva tabla ANOVA, más completa, es

Tabla ANOVA

Fuentes de Suma de Grados Varianzas F � test p� valuevariación cuadrados libertad

scE (modelo) 39;343034 1 s2e = 39;343034 Freg = 357

086 000000

scR1 2;765084 8 s2R;1 = 3450731

scR2 5;259077 65 s2R;2 = 800919 Flin = 4

027 000004

scR (Residual) 8025061 73 s2R = 109094 sR = 10

048

scG (Global) 47;368095 74 s2y = 640012 sy = 25

030

Si H0;lin es correcto s2R;1 � 0: El estadístico del contraste es dlin

dlin =s2R;1s2R;2

=3450731

800919= 4027 � F8;65

) p� valorlineal = P (F8;65 > 4027) = 000004

Page 9: Prácticas y problemas de regresión lineal simple

Prácticas y problemas de regresión lineal simple. 9

Se rechaza H0;lin y se deduce que el modelo lineal no es el que mejor se ajusta a lanube de observaciones.

Predicciones.

�Calcular intervalos de con�anza al 90% para el tiempo medio de impresiónde los trabajos que tienen 6 y 12 hojas respectivamente.

Calcular intervalos de predicción al 90% para el tiempo de impresión de untrabajo que tiene 6 hojas. Calcular el intervalo de predicción para el tiempode impresión de un trabajo de 12 hojas�.

Para xt = 6; el estimador de mt = E(Y=X = 6) es

mt = 130515 + 80108 xt = 13

0515 + 80108 � 6 = 620163:

El valor de in�uencia (leverage) es

ht =1

n

1 +

�xt � �xsX

�2!=1

75

1 +

�6� 50442082484

�2!=

1

75

�1 + 0019822

�= 00013857:

) nt =1

ht= 7201651 (número de observaciones equivalente):

La varianza del estimador mt

V ar (mt) =s2Rnt=109094

7201651= 105235:

) � (mt) = 102343:

Un intervalo de con�anza al 90% para mt es

mt � 620163102343

� t73 )

mt 2 620163� t73�0095

�� 102343)

mt 2 620163� 106664 � 102343 = 620163� 200568 =�600106; 640219

�:

La predicción para Y=X = 6 es

yt = 130515 + 80108 xt = 13

0515 + 80108 � 6 = 620163:

La varianza de predicción es

V ar (yt) =s2Rnh+ s2R =

109094

7201651+ 109094 = 11104635)

� (yt) = 1005576:

Page 10: Prácticas y problemas de regresión lineal simple

10 Modelos estadísticos aplicados. Juan Vilar

Un intervalo de predicción al 90% para yt es

yt 2 620163� t73�0095

�� 1005576)

yt 2 620163� 106664 � 1005576 = 620163� 170593 =�440569; 790756

�:

Análogamente, se realizan los cálculos para xq = 12:El estimador de mt = E (Y=X = 12) es

mq = 130515 + 80108 � 12 = 1100811:

Su valor de in�uencia es

hq =1

n

1 +

�xq � �xsR

�2!=1

75

1 +

�12� 50442082484

�2!=

1

75

�1 + 2032222

�= 0008523

) nq =1

hq= 1107323 (número de observaciones equivalente):

La varianza de mq es

V ar (mq) =s2Rnq=109094

1107323= 903707:

) � (mq) = 300612:

Un intervalo de con�anza al 90% para mq es

mq 2 1100811� t73�0095

�� 300612)

mq 2 1100811� 106664 � 300612 = 1100811� 501011 =�1050709; 1150912

�:

La predicción de Y=X = 12 es

yq = 130515 + 80108 � 12 = 1100811:

V ar (yq) =s2Rnq+ s2R = 109

094

�1

1107323+ 1

�= 119031:

) � (yq) = 100923:

Un intervalo de predicción al 90% para yq es

yq 2 1100811� t73�0095

�� 100923)

yq 2 1100811� 106664 � 100923 = 1100811� 180202 =�920609; 1290013

�:

Page 11: Prácticas y problemas de regresión lineal simple

Prácticas y problemas de regresión lineal simple. 11

En la tabla adjunta se pueden comparar las longitudes de los intervalos calculados

Longitudes de los intervalos calculadosInt. Con�anzade (E (Y=x))

Int. Predicciónde (Y=x)

núm. equivalentede observaciones

xt = 6 200568 170593 7201651

xq = 12 501011 180202 1107323

Page 12: Prácticas y problemas de regresión lineal simple

12 Modelos estadísticos aplicados. Juan Vilar

1.3. Problemas propuestos de regresión lineal simple.

Problema 4.4. (este problema se puede resolver utilizando calculadora)�En la tabla adjunta se presentan el número de páginas y el precio de doce libros

técnicos:

páginas precio páginas precio páginas precio310 3050 400 8000 420 2050

300 3050 170 1080 610 5000

280 3050 430 7000 420 5040

310 7030 230 3020 450 3070

Con estos datos se obtiene: (X el número de páginas e Y el precio):P12i=1Xi = 4;330;

P12i=1X

2i = 1;714;700;P12

i=1 Yi = 5404;

P12i=1 Y

2i = 290

062;P12i=1XiYi = 20;663:

1. Ajustar una recta de regresión que explique el precio en función del número depáginas e interpretar los resultados.

2. Construir la tabla ANOVA asociada. ¿Es el ajuste adecuado?

3. Calcular intervalos de con�anza al 90% para los parámetros del modelo.

4. Calcular un intervalo de con�anza al 90% para el precio de un libro de 500 páginas.�

Problema 4.5. �La resistencia del cemento (r) depende, entre otras cosas, del tiempode secado del cemento (t). En un experimento se obtuvo la resistencia de bloques decemento con diferente tiempo de secado los resultados fueron los siguientes (Hald, A.(1952) �Statistical theory with engneering applications. Wiley & Sons). En base a estamuestra,

Tiempo (días) Resistencia (kg=cm2)1 1300 1303 1108

2 2109 2405 2407

3 2908 2800 2401 2402 2602

7 3204 3004 3405 3301 3507

28 4108 4206 4003 3507 3703

1. Analizar la posible existencia de una relación entre estas dos variables.

2. ¿Qué conclusiones se deducen del contraste de regresión y del contraste de linealidad?

3. Si se utilizase un ajuste cuadrático ¿se obtienen mejores resultados?

Page 13: Prácticas y problemas de regresión lineal simple

Prácticas y problemas de regresión lineal simple. 13

4. Estudiar el modelo paramétrico propuesto por A. Hald que estudiba la relación dellogaritmo de la resistencia del cemento sobre la inversa del tiempo de secado.�

Problema 4.6. �La variable (Y ) representa, en miles, el número de asnos en Españay la (X) el tanto por ciento del presupuesto del Estado dedicado a Educación.

año Y X año Y X año Y X

1920 1;006 505 1945 747 907 1970 476 1207

1925 1;162 408 1950 732 906 1975 386 1105

1930 1;479 708 1955 683 809 1980 368 1104

1935 805 802 1960 686 1104

1940 795 806 1965 493 1006

1. Representar gra�camente estos datos.

2. Construir la recta de regresión que explique el comportamiento de la variable �tantopor ciento del presupuesto del Estado dedicado a Educación�en función de la variable�el número de asnos en España� e interpretar los resultados

3. ¿Es signi�cativo el coe�ciente de correlación entre estas dos variables?

4. Los residuos asociados al ajuste de la regresión lineal ¿son independientes?

5. Representar las variables X e Y frente al tiempo. Calcular los coe�cientes de cor-relación y rectas de regresión de las variables X e Y respecto al tiempo.

Nota: Estos datos son recogidos del texto de Daniel Peña �Estadística modelos ymétodos. Vol. 2. Modelos lineales y series temporales�. Alianza Universidad Textos.Es un claro ejemplo de variables entre las que existe una alta correlación estadísticapero no existe relación entre las mismas (correlaciones espúreas), su relaciónestadística es debida a la relación que ambas tienen con una tercera (el tiempo) yque no se tiene en cuenta en el estudio.

Problema 4.7. �Se llevó a cabo un estudio para determinar la relación entre elnúmero de años de experiencia (X) y el salario mensual, en miles de pesetas, (Y ) entre losinformáticos de una región española. Se tomó una muestra aleatoria de 17 informáticos yse obtuvieron los siguientes datos

Exper. Salario Exper. Salario Exper. Salario13 2601 31 3604 27 3600

16 3302 19 3308 25 3605

30 3601 20 3605 7 2104

2 1605 1 1609 15 3100

8 2604 4 1908 13 3104

6 1901 10 2406

Page 14: Prácticas y problemas de regresión lineal simple

14 Modelos estadísticos aplicados. Juan Vilar

1. Calcular la regresión lineal de la variable salario frente a años de experiencia. Calcularintervalos de con�anza al 95% para los coe�cientes de este modelo.

2. Calcular el coe�ciente de correlación lineal y el coe�ciente de determinación. ¿Con� = 0005 se puede rechazar la hipótesis de que el coe�ciente de determinación escero?

3. Calcular intervalos de con�anza al 90% y 95% para la predicción del salario de uninformático que tiene 8 años de experiencia.

4. ¿Se observa alguna anomalía en el grá�co de los residuos frente a la regresora.�

Problema 4.8. �El siguiente conjunto de datos era tomado sobre grupos de tra-bajadoras de Inglaterra y Galés en el período de 1970-72. Cada grupo está formado portrabajadores de la misma profesión (médicos, trabajadores textiles, decoradores,...etc,) yen cada uno de los veinticinco grupos muestrados se han observado dos variables: el índiceestandarizado de consumo de cigarrillos y el índice de muertes por cáncer de pulmón.

(Occupational mortality: the registar general�s decennial supplement for England andWales, 1970-72, series Ds, n.1, London:HMSO,149).

x y x y x y

77 84 102 88 133 146

137 116 91 104 115 128

117 123 104 129 105 115

94 128 107 86 87 79

116 155 112 96 91 85

102 101 113 144 100 120

111 118 110 139 76 60

93 113 125 113 66 51

88 104

1. Estudiar la regresión lineal del índice de mortalidad frente al índice de fumadores.

2. Calcular la tabla ANOVA. Conclusiones.

3. Comprobar si se veri�can las hipótesis del modelo.�

Problema 4.9. �Anscombe utilizó el siguiente conjunto de datos para demostrar laimportancia de los grá�cos en el análisis de regresión y correlación. Hay cuatro conjuntosde datos bidimensionales (X;Y ), el vector X es el mismo para los tres primeros conjuntos.

1. Para cada uno de los cuatro conjuntos de datos, calcular la recta de regresión de Yfrente a X y el coe�ciente de correlación.

2. Para cada uno de los cuatro casos, dibujar la grá�ca de Y frente a X y la grá�cade los residuos frente a las predicciones. ¿Qué conclusiones se deducen?�

Page 15: Prácticas y problemas de regresión lineal simple

Prácticas y problemas de regresión lineal simple. 15

X1 = X2 = X3 Y 1 Y 2 Y 3 X4 Y 4

10 8004 9014 7046 8 6058

8 6095 8014 6077 8 5076

13 7058 8074 12074 8 7071

9 8081 8077 7011 8 8084

11 8033 9026 7081 8 8047

14 9096 8010 8084 8 7004

6 7024 6013 6008 8 5025

4 4026 3010 5039 8 5056

12 10084 9013 8015 8 7091

7 4082 7026 6042 8 6089

5 5068 4074 5073 19 12050

Problema 4.10. �Los datos de la tabla adjunta muestran la cantidad de ozono reg-istrada (Y ) y su presión parcial (X) para cada capa de altitud. Cada capa tiene aprox-imadamente un kilómetro de altura. Por conveniencia las capas se han escalado a unintervalo de -7 a +7.

1. Hacer una grá�ca de estos datos, ¿es razonable un ajuste lineal?

2. Ajustar una función de regresión lineal del ozono frente a la capa. Calcular la tablaANOVA y los contrastes de regresión y de linealidad. Conclusiones.

3. Analizar detenidamente los residuos. ¿Se veri�can las hipótesis estructurales delmodelo? ¿Son los datos homocedásticos?

4. ¿Existe un modelo no lineal que mejore el ajuste lineal?�.

Capa Ozono Capa Ozono

�7 5308 5408 5307 5507

5303 5406 5502 54017 4407 3805

�6 6308 6402 6609

6702 6504 67036 6002 5409 5008

�5 7108 7302 7506 7602 7207 5 7306 6504 6701

�4 7904 8101 8401

8502 8300 82084 7408 8203 7609 8102

�3 9003 8402 8803 8600 3 9306 8602 8709 8905

�2 9302 9704 9803 2 9203 9606 9805

�1 10208 9609 9802 1 10101 9406 9509

0 9809 9601 9906 9104

Problema 4.11. �El �chero problema-4-11 contiene once variables de 200 datos.La primera variable se corresponde con el vector de predicción de un ajuste lineal sim-ple y las restantes diez variables se correponden con diferentes vectores de residuos del

Page 16: Prácticas y problemas de regresión lineal simple

16 Modelos estadísticos aplicados. Juan Vilar

ajuste. Utilizando básicamente métodos grá�cos (grá�co de residuos frente a predicciones,histograma, grá�co de normalidad, grá�co de residuos frente al índice, correlograma,....)contratar si se veri�can las hipótesis básicas estructurales del modelo de regresión lineal oindagar la existencia de posibles problemas en el ajuste�.

Problema 4.12. �En 34 lotes de 120 libras de cacahuetes se observó el nivel mediode a�atoxin (partes por billón) (X) y el porcentaje de cacahuetes no contaminados (Y ) :

X Y X Y X Y X Y X Y

300 990971 1808 990942 4608 990863 1203 990956 2508 990858

407 990979 1809 990932 4608 990811 7103 990821 1808 990975

803 990982 2107 990908 5801 990877 1205 990972 3006 990987

903 990971 2109 990970 6203 990798 1206 990889 3602 990958

909 990957 2208 990985 7006 990855 1509 990961 3908 990909

1100 990961 2402 990933 7101 990788 1607 990982 4403 990859

8302 990830 8306 990718 9905 990642 11102 990658

1. Analizar estos datos e investigar la relación entre estas dos variables para predecirY en función de X. ¿Es adecuado el ajuste lineal?

2. ¿Veri�can los residuos las hipótesis estructurales?

3. Intentar encontrar un ajuste paramétrico que mejore al lineal.�

Problema 4.13. �En quince casas de la ciudad de Milton Keynes se observó duranteun período de tiempo la diferencia de temperatura promedio (en grados centígrados) entrela temperatura en la calle y la temperatura en casa, y el consumo de gas diario en kWh.

Dif. temp Consumo Dif. temp Consumo Dif. temp Consumo1003 69081 1304 75032 1506 86035

1104 82075 1306 69081 1604 110023

1105 81075 1500 78054 1605 106055

1205 80038 1502 81029 1700 85050

1301 85089 1503 99020 1701 90002

1. Hacer una grá�ca de los datos. ¿Existe relación entre estas dos variables?

2. ¿Se puede explicar el consumo de gas por una relación lineal con la diferencia detemperatura?.

3. Ajustando un polinomio de mayor grado, ¿se obtiene un mayor coe�ciente de deter-minación?, ¿qué modelo es preferible?�.

Problema 4.14. �Se midió la altura (en centímetros) y el peso (en kilogramos) detreinta chicas de once años del Heaton Meiddle School de Bradford. Estudiar estos datosy la relación entre ambas variables.

Page 17: Prácticas y problemas de regresión lineal simple

Prácticas y problemas de regresión lineal simple. 17

Altura Peso Altura Peso Altura Peso Altura Peso Altura Peso135 26 141 28 149 46 148 32 149 32

146 33 136 28 147 36 149 34 141 32

153 55 154 36 152 47 141 29

154 50 151 48 140 33 164 47

139 32 155 36 143 42 146 37

131 25 137 31 146 35 137 34

149 44 143 36 133 31 135 30

1. Dibujar la grá�ca de estas observaciones y calcular la recta de regresión de pesofrente a altura y la de altura frente a peso.

2. En la regresión lineal de peso frente a altura, ¿se observa alguna observación atípica?.

3. ¿Existen observaciones in�uyentes?

4. Contrastar las hipótesis estructurales del modelo.�

Problema 4.15. �El contenido en hierro de las escorias de los altos hornos puedeser determinada por una prueba química en laboratorio o, de forma más barata y rápida,por un test magnético. Se está interesado en estudiar la relación entre los resultadosdel test químico y del test magnético. En particular, se desea saber si a partir de losresultados del test magnético (X) se pueden estimar los resultados del test químico (Y )sobre el contenido del hierro. Para ello, se han realizado los dos test a un conjunto delotes recogidos secuencialmente en el tiempo. Los resultados obtenidos son los de la tablaadjunta.

Qui Mag Qui Mag Qui Mag Qui Mag Qui Mag Qui Mag24 25 18 19 17 12 21 18 20 21 25 16

16 22 20 10 19 15 24 22 24 18 15 16

24 17 21 23 16 15 15 20 24 20 16 26

18 21 20 20 15 15 20 21 23 25 27 28

18 20 21 19 15 15 20 21 29 20 27 28

10 13 15 15 13 17 25 25 27 18 30 30

14 16 16 16 24 18 27 22 23 19 29 32

16 14 15 16 22 16 22 18 19 16 26 28

25 28 25 36 32 40 28 33 25 33

1. Analizar estos datos. Hacer un estudio descriptivo y grá�co de los mismos.

2. Estudiar la relación entre los tests, ¿es adecuado el ajuste lineal?

3. Chequear las hipótesis del modelo.

4. ¿Existe un ajuste linealizable o polinómico que mejore al ajuste lineal?�

Page 18: Prácticas y problemas de regresión lineal simple

18 Modelos estadísticos aplicados. Juan Vilar

Problema 4.16. �Utilizando los datos del �chero problema-4-16 que contiene datosde variables de coches.

1. Estudiar la regresión lineal entre la variable mpg (miles per galon: inversa del con-sumo) y la regresora accel (aceleración). ¿Existe un ajuste mejor que el lineal?

2. Estudiar la regresión lineal entre mpg y la regresora weight (peso).

3. Estudiar la regresión lineal entre mpg y la regresora price (precio).

4. Estudiar la regresión lineal entre mpg y la regresora displace.

5. Estudiar la regresión lineal entre price y la regresora accel (aceleración).

6. ¿Utilizando un ajuste linealizable se mejoran los ajustes lineales estudiados?

7. Estudiar la existencia de datos atípicos y datos in�uyentes en los ajustes lineales olinealizables obtenidos.�

Problema 4.17. �Los siguientes datos representan el Producto Nacional Bruto deUSA (X) y los gastos de consumo (Y ) en miles de millones de dólares de 1972, entre losaños 1960-1980

Año 1960 1961 1962 1963 1964 1965 1966

PNB 73702 75606 80003 83205 87604 92903 98408

GC 45200 46104 48200 50005 52800 55705 58507

Año 1967 1968 1969 1970 1971 1972 1973

PNB 1;01104 1;05801 1;08706 1;08506 1;12204 1;18509 1;25500

GC 60207 63404 65709 67201 69608 73701 76805

Año 1974 1975 1976 1977 1978 1979 1980

PNB 1;24800 1;23309 1;30004 1;37107 1;43609 1;48300 1;48007

GC 76306 78002 82307 86309 90408 93009 93501

1. Ajustar un modelo lineal e interpretar los coe�cientes de regresión estimados.

2. Hacer la grá�ca de los residuos frente al tiempo. Estudiar la hipótesis de indepen-dencia.

3. Si existe una autocorrelación positiva, transformar los datos y ajustar el modelo deregresión lineal a los datos (mínimos cuadrados generalizados).�

Problema 4.18. �Para las compañías de seguros de hogar tiene interés estimar elcoste de reemplazar algunos objetos. Una de estas compañías estaba interesada en estimarel coste de reemplazar una colección de 1554 libros a partir de una muestra de 100 libros.El coste de los cien libros muestrales se obtenía de los catálogos de las editoriales y sialgún libro estaba descatalogado su valor se calculaba utilizando el precio de un libro desimilares características. Los precios están en peniques.

Page 19: Prácticas y problemas de regresión lineal simple

Prácticas y problemas de regresión lineal simple. 19

Dado que el valor de los libros era muy variable, en un intento de conseguir una mayorexactitud, se utilizó como regresora para explicar el precio de un libro el ancho del lomodel mismo (medido en milímetros). El ancho total de los 1.554 libros era de 25.182 mm.

Los datos de los cien libros se encuentran en el �chero problema-4-18. En base aestos datos, se pide:

1. Analizar estadísticamente las variables precio y ancho del libro.

2. ¿Existe una relación entre ambas variables?

3. Estimar el coste de toda la colección. En una primera aproximación sin tener encuenta la variable ancho de los libros y, en segundo lugar, teniendo en cuenta estavariable.�

Problema 4.19. �El �chero problema-4-19 contiene datos de dos nubes de pun-tos bidimensionales ((x; Y1) y (x; Y2)). Estos datos son debidos a Wampler y los generópor simulación para comprobar cuando un determinado programa estadístico realiza conexactitud el ajuste por mínimos cuadrados.

1. Ajustar a estas dos nubes de puntos un polinomio.

2. ¿Qué grado de polinomio se debe ajustar?, ¿es el ajuste bueno? ¿exacto?�.

Problema 4.20. �Los datos de la tabla adjunta son el conjunto clásico de datos deltest psicológico de Strong sobre retención de memoria. Los datos se tomaban de la siguientemanera: un conjunto de individuos memorizaban una lista de objetos inconexos y pasadoun tiempo la recordaba. La variable p indica el porcentage de retención de memoria enpromedio y la variable t es el tiempo transcurrido. El objetivo del estudio era explicar lavariable p en función de t:

t p t p t p t p1 0084 60 0054 720 0036 10080 0008

5 0071 120 0047 1440 0026

15 0061 240 0045 2880 0020

30 0056 480 0038 5760 0016

1. Analizar este conjunto de datos y estudiar la relación de la variable p respecto a t:

2. Estudiar analítica y gra�cámente un modelo del tipo p = exp(��t) que sugiere unapérdida geométrica de la memoria.

3. Estudiar analítica y gra�cámente un modelo del tipo log p = �0 + �1t: ¿Qué inter-pretación tiene este modelo?, ¿Qué ajuste es mejor?�.

Page 20: Prácticas y problemas de regresión lineal simple

20 Modelos estadísticos aplicados. Juan Vilar

Problema 4.21. �El �chero problema-4-21 contiene datos de 78 ciervos de Escociaen los que se estudia el crecimiento de los dientes. Para todos los ciervos de un rebaño sesupone que el crecimiento de los dientes �naliza a la misma edad y después la velocidadde desgaste es la misma para todos los animales y constante en el tiempo. La aleatoriedaden los resultados es debida al peso de la corona en la madurez que sigue una distribuciónnormal y la edad de la madurez no es conocida con exactitud. A los ciervos de la muestrase les tomo la edad y el peso en gramos del primer molar. En base a estos datos:

1. Estudiar la relación del peso respecto a la edad.

2. Hacer los contrastes de regresión y de linealidad.

3. Analizar los residuos, ¿se veri�can las hipótesis básicas?�.

Problema 4.22. �En los sitemas productivos de ovejas tiene un gran interés controlarlas necesidades energéticas de cada animal ya que in�uyen en la predicción de la producciónde carne. Por ello, se ha tomado una muestra de 64 ovejas australianas y, a cada una deellas, se le controló su peso x (en kilogramos), y sus necesidades energéticas diarias Ymedidas en Mcal/día. Los resultados de la muestra se presentan en el �chero problema-4-22. En base a estos datos muestrales:

1. Estudiar la relación lineal de Y respecto a x:

2. Estimar la media de consumo energético de las ovejas que pesan 30, 40, 50 y 60 Kgr.Calcular intervalos de con�anza al 90% para estos valores. Hacer el mismo cálculopero considerando la predicción del consumo energético de una oveja de ese peso.Calcular intervalos de predicción.�

Problema 4.23. �El �chero problema-4-23 contiene dos conjuntos de datos bidi-mensionales en los que no existe una relación lineal pero si es fácil encontrar la relaciónexistente entre las dos variables.

El primer conjunto tiene 25 observaciones de molinos de viento para la producciónde energía eléctrica, la variable X1 mide la velocidad del viento y la variable Y 1 mide lacorriente eléctrica obtenida.

El segundo conjunto tiene 19 observaciones relativas a la producción del papel, lavariable X2 mide la resistencia del papel fabricado y la variable Y 2 mide la proporción demadera en la pulpa a partir de la cual se obtiene el papel.

1. En ambos casos, dibujar la grá�ca de la nube de puntos.

2. Obtener el modelo de regresión que mejor se ajusta a la nube de observaciones.¿Existe ajustes que mejoran al lineal?, ¿el ajuste realizado es su�cientemente bueno?

3. Analizar los residuos de los modelos ajustados�.

Page 21: Prácticas y problemas de regresión lineal simple

Prácticas y problemas de regresión lineal simple. 21

Problema 4.24. �El �chero problema-4-24 contiene datos relativos al peso del cuer-po (X; en kilogramos) y el peso del cerebro (Y; en gramos) de 28 especies de animales. Enbase a estos datos:

1. ¿Se observa en esta nube algún dato atípico?

2. Transformar los datos para que se pueda hacer una grá�ca de los mismos. Realizarla grá�ca de los datos transformados.

3. Ajustar un modelo de regresión lineal a los datos transformados. ¿Es el ajusteadecuado? Interpretarlo.

4. En el modelo transformado ¿Existen datos atípicos?�.

Problema 4.25. �La dureza de los árboles es difícil de medir directamente, sin em-bargo la densidad si es relativamente fácil de medir. Por ello es de gran interés disponerde un modelo que permita predecir la dureza de un árbol a partir de su densidad. Por estemotivo se ha tomado una muestra de 36 eucaliptos australianos y se les midió su densidad(X) y su dureza (Y ). Los resultados obtenidos son los de la tabla adjunta.

Densidad Dureza Densidad Dureza Densidad Dureza2407 484 3904 1210 5304 1880

2408 427 3909 989 5600 1980

2703 413 4003 1160 5605 1820

2804 517 4006 1010 5703 2020

2804 549 4007 1100 5706 1980

2900 648 4007 1130 5902 2310

3003 587 4209 1270 5908 1940

3207 704 4508 1180 6600 3260

3506 979 4609 1400 6704 2700

3805 914 4802 1760 6808 2890

3808 1070 5105 1710 6901 2740

3903 1020 5105 2010 6901 3140

En base a estos datos:

1. Estudiar el modelo de regresión lineal de Y respecto a X:

2. Ajustar a estos datos un polinomio de grado a determinar. ¿Se mejora de formaapreciable el ajuste lineal?

3. Con el mejor ajuste predecir la dureza de un árbol de densidad 20, 40, 60 y 80.

4. Calcular intervalos de con�anza y de predicción al 90% para las estimaciones delapartado anterior.

5. Analizar los residuos del modelo ajustado.

6. Considerar una transformación de los datos de la dureza (Y ) y ajustar un modelo deregresión. ¿El modelo ajustado con los datos transformados mejora al ajuste polinómico?�