Capítulo 1
Prácticas y problemas de regresiónlineal simple.
1.1. Problemas de regresión lineal simple con ordenador.
Problema 4.1.�Los datos de la tabla adjunta proporcionan la distancia en línea recta (LR) y por
carretera (DC) entre veinte pares de puntos geográ�cos (localidades) de She¢ eld.
1. ¿Existe una relación lineal entre las dos variables?
2. ¿Es su�cientemente bueno el modelo de regresión lineal que explica la variable deinterés DC en función de la variable regresora LR?. Estimar el modelo de regresiónlineal. Calcular intervalos de con�anza al 90% para los parámetros del modelo.
3. Calcular la tabla ANOVA del modelo. Conclusiones que se obtienen.
4. Predecir la distancia por carretera entre dos ciudades cuya distancia en línea rectaes 25. Calcular un intervalo de predicción al 90%. Repetir el apartado si la distancia(LR) es 50.
5. ¿Existe un modelo linealizable mejor?
DC LR DC LR DC LR1007 905 1606 1201 2808 2106
605 500 2900 2200 3102 2605
2904 2300 4005 2802 605 408
1702 1502 1402 1201 2507 2107
1804 1104 1107 908 2605 1800
1907 1108 2506 1900 3301 2800
1603 1406 905 803
1
2 Modelos estadísticos aplicados. Juan Vilar
Desarrollo del Problema 4.1.
En primer lugar se representa la grá�ca de dispersión de la nube de puntos que permitetener una primera idea acerca de la forma del modelo de regresión. Se utiliza el siguientemódulo de Statgraphics
graficos > graficos de dispersion > grafico x-y
Un estudio detallado del modelo lineal simple ajustado se obtiene en
dependencia > regresion simple
Dentro de este módulo, en el apartado resumen del procedimiento, se obtienela recta de regresión estimada (estimación de los coe�cientes de �0 y �1; desviacionestípicas, lo que permite calcular intervalos de con�anza de los mismos y test de la t). Esteapartado también proporciona la tabla ANOVA y los coe�cientes de determinación. Eneste problema el coe�ciente de correlación es r = 00969, y se concluye que el ajuste lineales bueno.
El apartado predicciones permite calcular predicciones e intervalos de con�anza dela media condicionada y de predicción para una observación determinada.
Si la recta de regresión se quiere comparar con otros modelos �linealizables�se puedehacer en el apartado comparacion de modelos alternativos
Este módulo proporciona la correlación de doce ajustes. Con los datos de este problemalos ajustes �doble recíproco�y �multiplicativo�mejoran ligeramente (en correlación) a laregresión lineal y habría que evaluar la conveniencia de trabajar con ellos. Para calcularel ajuste de alguno de estos modelos �linealizables�se utiliza el apartado de opciones enresumen del procedimiento.
Este módulo también proporciona las observaciones con residuos grandes (residuosatipicos), las observaciones in�uyentes (puntos influyentes) y diferentes grá�cos quepermiten evaluar la bondad del ajuste y el cumplimiento de las hipótesis básicas.
Problema 4.2. (Datos simulados)�Este problema consta de dos partes. En un primer apartado se simula un conjunto de
datos bidimensionales (xi; yi) que siguen un modelo de regresión lineal simple con diseño�jo. En el segundo apartado se estudia el modelo de regresión que mejor se ajusta a losdatos simulados en el apartado anterior.
La variable regresora X toma los valores 5; 8; 12; 15; 20; 22; 25; 27; 30 y 33: Para cadavalor deX se tienen 15 observaciones de la variable respuesta Y; en total, 150 observaciones.Los valores se generan a partir del modelo matemático
Y = 40 + 105X + ";
donde " sigue una distribución N�0; 102
�:
Se seguirán los siguientes pasos:
Prácticas y problemas de regresión lineal simple. 3
1. Generación de la muestra.
2. Hacer un estudio estadístico básico de la variable condicionada Y=X:
3. Calcular la recta de regresión ajustada a las observaciones simuladas: estimación delos parámetros, tabla ANOVA, contraste de regresión y de linealidad, intervalos decon�anza. ¿Se obtienen resultados congruentes, la recta de regresión ajustada estápróxima a la recta generadora de las observaciones?
4. Contrastar las hipótesis estructurales del modelo. ¿Existen datos atípicos?
5. Hacer predicciones para X = 10; 20; 30; 40; 50; 100: Calcular intervalos de con�anzay de predicción.
6. Estudiar otros modelos linealizables.
Desarrollo del Problema 4.2.
Para generar la muestra por simulación se siguen los siguientes pasos:
- Crear la variable valor_x = 5; 8; 12; 15; 20; 22; 25; 27; 30; 33:
- Generar la variable x = rep(15; valor_x):
- Generar la variable recta = 40 + 1; 5 � x:
- Generar la variable error = rnormal(150; 0; 10):
- Obtener la variable respuesta y = recta+ error .
La muestra (simulada) se representa en un grá�co bidimensional según el análisis
graficos > graficos de dispersion > grafico x-y
Como se dispone de varias observaciones de la respuesta para cada valor de X se debehacer un análisis estadístico de la variable condicionada Y=X: Para ello se utiliza el módulo
descripcion > datos numericos > analisis de subgrupo
Introducir codes = x.Igual que en el problema anterior el análisis de regresión se realiza en
dependencia > regresion simple
En este problema se puede hacer una tabla ANOVA más completa y el contraste delinealidad en la opción contraste de falta de ajuste.
El desarrollo del resto del problema es análogo al anterior y como se dispone de unnúmero relativamente grande de observaciones se puede hacer un estudio más completoacerca del cumplimiento de las hipótesis del modelo.
4 Modelos estadísticos aplicados. Juan Vilar
1.2. Problema resuelto de regresión lineal simple.
Problema 4.3.�Los datos de la tabla adjunta muestran el tiempo de impresión (Y ) de trabajos que
se han imprimido en impresoras de la marca PR. Se está interesado en estudiar la relaciónexistente entre la variable de interés �tiempo de impresión de un trabajo� y la variableexplicativa (X) �número de páginas del trabajo�. Utilizando estos datos ajustar un modelode regresión�.
Datos de las impresorasx y x y x y
1
24056 17033 17081
28007 23016 19041
22053 14070
2
29092 17014
37025 31090
31080 41072
24059
3
28086 30001
44073 44043
41032 34016
28079
4
29003 45000 53052
54038 47063 30011
44034 48095
5
52055 69050
55061 52098
65070 40011
45021 46063
6
65039 57048
62085 69009
71044 57029
50042
7
85033 66073 68017
78094 61007 76071
78034 88025 64084
8
83082 75038
69040 84042
80068 60079
100008 74079
9
82090 105073
102013 119082
93093 102030
10
79082 90083 89000
83081 71079 76020
76030
Solución Problema 4.3.Se calculan los estadísticos básicos de las variables X e Y;
n = 75Pni=1 xi = 408 �x = 5044
Pni=1 x
2i = 2;818 x2 = 3705733 s2x = 7
09797 sx = 2082484
Pni=1 yi = 4;321
07 �y = 5706227
Pni=1 y
2i = 296;397 y2 = 3;951096 s2y = 631
0586 sy = 2501313
Pni=1 xiyi = 28;362
05 xy = 3780167 sxy = 6406995
Las estimaciones de los parámetros de la recta de regresión son
�1 =sxys2x
=6406995
709797= 80108:
Prácticas y problemas de regresión lineal simple. 5
�0 = �y � �1�x = 5706227� 80108 � 5044 = 130515
Se calculan las predicciones yi
Prediccionesxi yi xi yi xi yi xi yi xi yi1 210623 3 370839 5 540055 7 700271 9 860487
2 290731 4 450947 6 620163 8 780379 10 940595
La suma de cuadrados de los residuos (scR) se obtiene como
75Xi=1
e2i =75Xi=1
(yi � yi)2 =75Xi=1
�yi �
�130515 + 80108xi
��2= 8025061:
Una forma alternativa, más sencilla, de calcular scR es
75Xi=1
e2i =75Xi=1
y2i � �0
75Xi=1
yi + �1
75Xi=1
xiyi
!= 8025061:
La varianza residual es
s2R =1
n� 2
75Xi=1
e2i =8025061
73= 109094) sR = 10
0485:
Las varianzas de los parámetros son
V ar(�1) =s2Rns2x
=109094
75 � 709797 = 001837) �(�1) = 0
04286:
V ar(�0) =s2Rn
�1 +
�x2
s2x
�=109094
75
�1 +
50442
709797
�= 609022) �(�0) = 2
06272
Intervalos de con�anza (al 90%) y contrastes de hipótesis sobre los parámetros delmodelo son:
Intervalo de con�anza para �2
(n� 2) s2R�2
� �2n�2 ) �273�0005
�� 73 � 109094
�2� �273
�0095
�)
5403245 � 8025062
�2� 9400592)
850325 =8025062
9400592� �2 � 8025062
5403245= 1470735:
Intervalo de con�anza para �1
�1 � �1� (�1)
� tn�2 ) t73�0005
�� 80108� �1
004286� t73
�0095
�)
�106664 � 80108� �1004286
� 106664)
�1 2 80108� 004286 � 106664 = 80108� 007142 =�703938; 808222
�:
6 Modelos estadísticos aplicados. Juan Vilar
Intervalo de con�anza para �0
�0 � �0� (�0)
� tn�2 ) t73�0005
�� 130515� �0
206272� t73
�0095
�)
�106664 � 130515� �0206272
� 106664)
�0 2 130515� 206272 � 106664 = 130515� 40378 =�90137; 170893
�:
Contraste de hipótesis para �1 (H0 : �1 = 0 frente H0 : �1 6= 0)
d1 =�1 � �1� (�1)
jH0 =�1
� (�1)=80108
004286= 180917 � tn�2
) p� valor = P�jt73j > 180917
�= 000000
) Se rechaza H0:
Contraste de hipótesis para �0 (H0 : �0 = 0 frente H0 : �0 6= 0)
d0 =�0 � �0� (�0)
jH0 =�0
� (�0)=130515
206272= 50144 � tn�2
) p� valor = P�jt73j > 50144
�= 000000
) Se rechaza H0:
El coe�ciente de correlación es
r =sxysxsy
=6406995
2082484 � 2501313 = 009113:
En el siguiente grá�co se representa la nube de puntos y la recta ajustada
Figura 4.1. Nube de observaciones y recta ajustada.
Prácticas y problemas de regresión lineal simple. 7
El grá�co de residuos frente a las predicciones se observa en el siguiente grá�co,
Figura 4.2. Grá�co de residuos.
Cálculo de la tabla ANOVA del modelo.
scR =
75Xi=1
e2i = 8;025061;
scG =
75Xi=1
(yi � �y)2 = 75 � s2y = 75 � 6310586 = 47;368095;
scE =
75Xi=1
(yi � �y)2 = scG� scR = 47;368095� 8;025061 = 39;343034;
de donde
Tabla ANOVA
Fuentes de Suma de Grados Varianzas F � test p� valuevariación cuadrados libertad
scE (modelo) 39;343034 1 s2e = 39;343034 F = 357086 000000
scR (Residual) 8025061 73 s2R = 109094 sR = 10
048
scG (Global) 47;368095 74 s2y = 640012 sy = 25
030
Contraste de regresión.
H0;reg : �el modelo de regresión lineal ajustado no es in�uyente�H1 : �el modelo ajustado es in�uyente�
8 Modelos estadísticos aplicados. Juan Vilar
Si H0;reg es correcto s2e � 0: El estadístico del contraste es dreg
dreg =s2es2R=39;343034
109094= 357086 � F1;73
) p� valorreg = P (F1;73 > 357086) = 000000:
Se rechaza H0;reg y se asume que el modelo ajustado es signi�cativo.
Contraste de linealidad. Dado que para cada valor de x se dispone de varias obser-vaciones de Y; se puede hacer el contraste
H0;lin : �el modelo lineal es adecuado�H1 : �el modelo de regresión no es lineal�
Se descompone scR en dos términos:
scR =75Xi=1
e2i =75Xi=1
(yi � yi)2 =75Xi=1
(�yi:�yi)2 +
75Xi=1
(yi � �yi)2 :
scR1 =75Xi=1
(�yi:�yi)2 = 2;765084:
scR2 =
75Xi=1
(yi � �yi)2 = 5;259077:
scR =
75Xi=1
e2i =
75Xi=1
(yi � yi)2 = 2;765084 + 5259077 = 8;025061:
La nueva tabla ANOVA, más completa, es
Tabla ANOVA
Fuentes de Suma de Grados Varianzas F � test p� valuevariación cuadrados libertad
scE (modelo) 39;343034 1 s2e = 39;343034 Freg = 357
086 000000
scR1 2;765084 8 s2R;1 = 3450731
scR2 5;259077 65 s2R;2 = 800919 Flin = 4
027 000004
scR (Residual) 8025061 73 s2R = 109094 sR = 10
048
scG (Global) 47;368095 74 s2y = 640012 sy = 25
030
Si H0;lin es correcto s2R;1 � 0: El estadístico del contraste es dlin
dlin =s2R;1s2R;2
=3450731
800919= 4027 � F8;65
) p� valorlineal = P (F8;65 > 4027) = 000004
Prácticas y problemas de regresión lineal simple. 9
Se rechaza H0;lin y se deduce que el modelo lineal no es el que mejor se ajusta a lanube de observaciones.
Predicciones.
�Calcular intervalos de con�anza al 90% para el tiempo medio de impresiónde los trabajos que tienen 6 y 12 hojas respectivamente.
Calcular intervalos de predicción al 90% para el tiempo de impresión de untrabajo que tiene 6 hojas. Calcular el intervalo de predicción para el tiempode impresión de un trabajo de 12 hojas�.
Para xt = 6; el estimador de mt = E(Y=X = 6) es
mt = 130515 + 80108 xt = 13
0515 + 80108 � 6 = 620163:
El valor de in�uencia (leverage) es
ht =1
n
1 +
�xt � �xsX
�2!=1
75
1 +
�6� 50442082484
�2!=
1
75
�1 + 0019822
�= 00013857:
) nt =1
ht= 7201651 (número de observaciones equivalente):
La varianza del estimador mt
V ar (mt) =s2Rnt=109094
7201651= 105235:
) � (mt) = 102343:
Un intervalo de con�anza al 90% para mt es
mt � 620163102343
� t73 )
mt 2 620163� t73�0095
�� 102343)
mt 2 620163� 106664 � 102343 = 620163� 200568 =�600106; 640219
�:
La predicción para Y=X = 6 es
yt = 130515 + 80108 xt = 13
0515 + 80108 � 6 = 620163:
La varianza de predicción es
V ar (yt) =s2Rnh+ s2R =
109094
7201651+ 109094 = 11104635)
� (yt) = 1005576:
10 Modelos estadísticos aplicados. Juan Vilar
Un intervalo de predicción al 90% para yt es
yt 2 620163� t73�0095
�� 1005576)
yt 2 620163� 106664 � 1005576 = 620163� 170593 =�440569; 790756
�:
Análogamente, se realizan los cálculos para xq = 12:El estimador de mt = E (Y=X = 12) es
mq = 130515 + 80108 � 12 = 1100811:
Su valor de in�uencia es
hq =1
n
1 +
�xq � �xsR
�2!=1
75
1 +
�12� 50442082484
�2!=
1
75
�1 + 2032222
�= 0008523
) nq =1
hq= 1107323 (número de observaciones equivalente):
La varianza de mq es
V ar (mq) =s2Rnq=109094
1107323= 903707:
) � (mq) = 300612:
Un intervalo de con�anza al 90% para mq es
mq 2 1100811� t73�0095
�� 300612)
mq 2 1100811� 106664 � 300612 = 1100811� 501011 =�1050709; 1150912
�:
La predicción de Y=X = 12 es
yq = 130515 + 80108 � 12 = 1100811:
V ar (yq) =s2Rnq+ s2R = 109
094
�1
1107323+ 1
�= 119031:
) � (yq) = 100923:
Un intervalo de predicción al 90% para yq es
yq 2 1100811� t73�0095
�� 100923)
yq 2 1100811� 106664 � 100923 = 1100811� 180202 =�920609; 1290013
�:
Prácticas y problemas de regresión lineal simple. 11
En la tabla adjunta se pueden comparar las longitudes de los intervalos calculados
Longitudes de los intervalos calculadosInt. Con�anzade (E (Y=x))
Int. Predicciónde (Y=x)
núm. equivalentede observaciones
xt = 6 200568 170593 7201651
xq = 12 501011 180202 1107323
12 Modelos estadísticos aplicados. Juan Vilar
1.3. Problemas propuestos de regresión lineal simple.
Problema 4.4. (este problema se puede resolver utilizando calculadora)�En la tabla adjunta se presentan el número de páginas y el precio de doce libros
técnicos:
páginas precio páginas precio páginas precio310 3050 400 8000 420 2050
300 3050 170 1080 610 5000
280 3050 430 7000 420 5040
310 7030 230 3020 450 3070
Con estos datos se obtiene: (X el número de páginas e Y el precio):P12i=1Xi = 4;330;
P12i=1X
2i = 1;714;700;P12
i=1 Yi = 5404;
P12i=1 Y
2i = 290
062;P12i=1XiYi = 20;663:
1. Ajustar una recta de regresión que explique el precio en función del número depáginas e interpretar los resultados.
2. Construir la tabla ANOVA asociada. ¿Es el ajuste adecuado?
3. Calcular intervalos de con�anza al 90% para los parámetros del modelo.
4. Calcular un intervalo de con�anza al 90% para el precio de un libro de 500 páginas.�
Problema 4.5. �La resistencia del cemento (r) depende, entre otras cosas, del tiempode secado del cemento (t). En un experimento se obtuvo la resistencia de bloques decemento con diferente tiempo de secado los resultados fueron los siguientes (Hald, A.(1952) �Statistical theory with engneering applications. Wiley & Sons). En base a estamuestra,
Tiempo (días) Resistencia (kg=cm2)1 1300 1303 1108
2 2109 2405 2407
3 2908 2800 2401 2402 2602
7 3204 3004 3405 3301 3507
28 4108 4206 4003 3507 3703
1. Analizar la posible existencia de una relación entre estas dos variables.
2. ¿Qué conclusiones se deducen del contraste de regresión y del contraste de linealidad?
3. Si se utilizase un ajuste cuadrático ¿se obtienen mejores resultados?
Prácticas y problemas de regresión lineal simple. 13
4. Estudiar el modelo paramétrico propuesto por A. Hald que estudiba la relación dellogaritmo de la resistencia del cemento sobre la inversa del tiempo de secado.�
Problema 4.6. �La variable (Y ) representa, en miles, el número de asnos en Españay la (X) el tanto por ciento del presupuesto del Estado dedicado a Educación.
año Y X año Y X año Y X
1920 1;006 505 1945 747 907 1970 476 1207
1925 1;162 408 1950 732 906 1975 386 1105
1930 1;479 708 1955 683 809 1980 368 1104
1935 805 802 1960 686 1104
1940 795 806 1965 493 1006
1. Representar gra�camente estos datos.
2. Construir la recta de regresión que explique el comportamiento de la variable �tantopor ciento del presupuesto del Estado dedicado a Educación�en función de la variable�el número de asnos en España� e interpretar los resultados
3. ¿Es signi�cativo el coe�ciente de correlación entre estas dos variables?
4. Los residuos asociados al ajuste de la regresión lineal ¿son independientes?
5. Representar las variables X e Y frente al tiempo. Calcular los coe�cientes de cor-relación y rectas de regresión de las variables X e Y respecto al tiempo.
Nota: Estos datos son recogidos del texto de Daniel Peña �Estadística modelos ymétodos. Vol. 2. Modelos lineales y series temporales�. Alianza Universidad Textos.Es un claro ejemplo de variables entre las que existe una alta correlación estadísticapero no existe relación entre las mismas (correlaciones espúreas), su relaciónestadística es debida a la relación que ambas tienen con una tercera (el tiempo) yque no se tiene en cuenta en el estudio.
Problema 4.7. �Se llevó a cabo un estudio para determinar la relación entre elnúmero de años de experiencia (X) y el salario mensual, en miles de pesetas, (Y ) entre losinformáticos de una región española. Se tomó una muestra aleatoria de 17 informáticos yse obtuvieron los siguientes datos
Exper. Salario Exper. Salario Exper. Salario13 2601 31 3604 27 3600
16 3302 19 3308 25 3605
30 3601 20 3605 7 2104
2 1605 1 1609 15 3100
8 2604 4 1908 13 3104
6 1901 10 2406
14 Modelos estadísticos aplicados. Juan Vilar
1. Calcular la regresión lineal de la variable salario frente a años de experiencia. Calcularintervalos de con�anza al 95% para los coe�cientes de este modelo.
2. Calcular el coe�ciente de correlación lineal y el coe�ciente de determinación. ¿Con� = 0005 se puede rechazar la hipótesis de que el coe�ciente de determinación escero?
3. Calcular intervalos de con�anza al 90% y 95% para la predicción del salario de uninformático que tiene 8 años de experiencia.
4. ¿Se observa alguna anomalía en el grá�co de los residuos frente a la regresora.�
Problema 4.8. �El siguiente conjunto de datos era tomado sobre grupos de tra-bajadoras de Inglaterra y Galés en el período de 1970-72. Cada grupo está formado portrabajadores de la misma profesión (médicos, trabajadores textiles, decoradores,...etc,) yen cada uno de los veinticinco grupos muestrados se han observado dos variables: el índiceestandarizado de consumo de cigarrillos y el índice de muertes por cáncer de pulmón.
(Occupational mortality: the registar general�s decennial supplement for England andWales, 1970-72, series Ds, n.1, London:HMSO,149).
x y x y x y
77 84 102 88 133 146
137 116 91 104 115 128
117 123 104 129 105 115
94 128 107 86 87 79
116 155 112 96 91 85
102 101 113 144 100 120
111 118 110 139 76 60
93 113 125 113 66 51
88 104
1. Estudiar la regresión lineal del índice de mortalidad frente al índice de fumadores.
2. Calcular la tabla ANOVA. Conclusiones.
3. Comprobar si se veri�can las hipótesis del modelo.�
Problema 4.9. �Anscombe utilizó el siguiente conjunto de datos para demostrar laimportancia de los grá�cos en el análisis de regresión y correlación. Hay cuatro conjuntosde datos bidimensionales (X;Y ), el vector X es el mismo para los tres primeros conjuntos.
1. Para cada uno de los cuatro conjuntos de datos, calcular la recta de regresión de Yfrente a X y el coe�ciente de correlación.
2. Para cada uno de los cuatro casos, dibujar la grá�ca de Y frente a X y la grá�cade los residuos frente a las predicciones. ¿Qué conclusiones se deducen?�
Prácticas y problemas de regresión lineal simple. 15
X1 = X2 = X3 Y 1 Y 2 Y 3 X4 Y 4
10 8004 9014 7046 8 6058
8 6095 8014 6077 8 5076
13 7058 8074 12074 8 7071
9 8081 8077 7011 8 8084
11 8033 9026 7081 8 8047
14 9096 8010 8084 8 7004
6 7024 6013 6008 8 5025
4 4026 3010 5039 8 5056
12 10084 9013 8015 8 7091
7 4082 7026 6042 8 6089
5 5068 4074 5073 19 12050
Problema 4.10. �Los datos de la tabla adjunta muestran la cantidad de ozono reg-istrada (Y ) y su presión parcial (X) para cada capa de altitud. Cada capa tiene aprox-imadamente un kilómetro de altura. Por conveniencia las capas se han escalado a unintervalo de -7 a +7.
1. Hacer una grá�ca de estos datos, ¿es razonable un ajuste lineal?
2. Ajustar una función de regresión lineal del ozono frente a la capa. Calcular la tablaANOVA y los contrastes de regresión y de linealidad. Conclusiones.
3. Analizar detenidamente los residuos. ¿Se veri�can las hipótesis estructurales delmodelo? ¿Son los datos homocedásticos?
4. ¿Existe un modelo no lineal que mejore el ajuste lineal?�.
Capa Ozono Capa Ozono
�7 5308 5408 5307 5507
5303 5406 5502 54017 4407 3805
�6 6308 6402 6609
6702 6504 67036 6002 5409 5008
�5 7108 7302 7506 7602 7207 5 7306 6504 6701
�4 7904 8101 8401
8502 8300 82084 7408 8203 7609 8102
�3 9003 8402 8803 8600 3 9306 8602 8709 8905
�2 9302 9704 9803 2 9203 9606 9805
�1 10208 9609 9802 1 10101 9406 9509
0 9809 9601 9906 9104
Problema 4.11. �El �chero problema-4-11 contiene once variables de 200 datos.La primera variable se corresponde con el vector de predicción de un ajuste lineal sim-ple y las restantes diez variables se correponden con diferentes vectores de residuos del
16 Modelos estadísticos aplicados. Juan Vilar
ajuste. Utilizando básicamente métodos grá�cos (grá�co de residuos frente a predicciones,histograma, grá�co de normalidad, grá�co de residuos frente al índice, correlograma,....)contratar si se veri�can las hipótesis básicas estructurales del modelo de regresión lineal oindagar la existencia de posibles problemas en el ajuste�.
Problema 4.12. �En 34 lotes de 120 libras de cacahuetes se observó el nivel mediode a�atoxin (partes por billón) (X) y el porcentaje de cacahuetes no contaminados (Y ) :
X Y X Y X Y X Y X Y
300 990971 1808 990942 4608 990863 1203 990956 2508 990858
407 990979 1809 990932 4608 990811 7103 990821 1808 990975
803 990982 2107 990908 5801 990877 1205 990972 3006 990987
903 990971 2109 990970 6203 990798 1206 990889 3602 990958
909 990957 2208 990985 7006 990855 1509 990961 3908 990909
1100 990961 2402 990933 7101 990788 1607 990982 4403 990859
8302 990830 8306 990718 9905 990642 11102 990658
1. Analizar estos datos e investigar la relación entre estas dos variables para predecirY en función de X. ¿Es adecuado el ajuste lineal?
2. ¿Veri�can los residuos las hipótesis estructurales?
3. Intentar encontrar un ajuste paramétrico que mejore al lineal.�
Problema 4.13. �En quince casas de la ciudad de Milton Keynes se observó duranteun período de tiempo la diferencia de temperatura promedio (en grados centígrados) entrela temperatura en la calle y la temperatura en casa, y el consumo de gas diario en kWh.
Dif. temp Consumo Dif. temp Consumo Dif. temp Consumo1003 69081 1304 75032 1506 86035
1104 82075 1306 69081 1604 110023
1105 81075 1500 78054 1605 106055
1205 80038 1502 81029 1700 85050
1301 85089 1503 99020 1701 90002
1. Hacer una grá�ca de los datos. ¿Existe relación entre estas dos variables?
2. ¿Se puede explicar el consumo de gas por una relación lineal con la diferencia detemperatura?.
3. Ajustando un polinomio de mayor grado, ¿se obtiene un mayor coe�ciente de deter-minación?, ¿qué modelo es preferible?�.
Problema 4.14. �Se midió la altura (en centímetros) y el peso (en kilogramos) detreinta chicas de once años del Heaton Meiddle School de Bradford. Estudiar estos datosy la relación entre ambas variables.
Prácticas y problemas de regresión lineal simple. 17
Altura Peso Altura Peso Altura Peso Altura Peso Altura Peso135 26 141 28 149 46 148 32 149 32
146 33 136 28 147 36 149 34 141 32
153 55 154 36 152 47 141 29
154 50 151 48 140 33 164 47
139 32 155 36 143 42 146 37
131 25 137 31 146 35 137 34
149 44 143 36 133 31 135 30
1. Dibujar la grá�ca de estas observaciones y calcular la recta de regresión de pesofrente a altura y la de altura frente a peso.
2. En la regresión lineal de peso frente a altura, ¿se observa alguna observación atípica?.
3. ¿Existen observaciones in�uyentes?
4. Contrastar las hipótesis estructurales del modelo.�
Problema 4.15. �El contenido en hierro de las escorias de los altos hornos puedeser determinada por una prueba química en laboratorio o, de forma más barata y rápida,por un test magnético. Se está interesado en estudiar la relación entre los resultadosdel test químico y del test magnético. En particular, se desea saber si a partir de losresultados del test magnético (X) se pueden estimar los resultados del test químico (Y )sobre el contenido del hierro. Para ello, se han realizado los dos test a un conjunto delotes recogidos secuencialmente en el tiempo. Los resultados obtenidos son los de la tablaadjunta.
Qui Mag Qui Mag Qui Mag Qui Mag Qui Mag Qui Mag24 25 18 19 17 12 21 18 20 21 25 16
16 22 20 10 19 15 24 22 24 18 15 16
24 17 21 23 16 15 15 20 24 20 16 26
18 21 20 20 15 15 20 21 23 25 27 28
18 20 21 19 15 15 20 21 29 20 27 28
10 13 15 15 13 17 25 25 27 18 30 30
14 16 16 16 24 18 27 22 23 19 29 32
16 14 15 16 22 16 22 18 19 16 26 28
25 28 25 36 32 40 28 33 25 33
1. Analizar estos datos. Hacer un estudio descriptivo y grá�co de los mismos.
2. Estudiar la relación entre los tests, ¿es adecuado el ajuste lineal?
3. Chequear las hipótesis del modelo.
4. ¿Existe un ajuste linealizable o polinómico que mejore al ajuste lineal?�
18 Modelos estadísticos aplicados. Juan Vilar
Problema 4.16. �Utilizando los datos del �chero problema-4-16 que contiene datosde variables de coches.
1. Estudiar la regresión lineal entre la variable mpg (miles per galon: inversa del con-sumo) y la regresora accel (aceleración). ¿Existe un ajuste mejor que el lineal?
2. Estudiar la regresión lineal entre mpg y la regresora weight (peso).
3. Estudiar la regresión lineal entre mpg y la regresora price (precio).
4. Estudiar la regresión lineal entre mpg y la regresora displace.
5. Estudiar la regresión lineal entre price y la regresora accel (aceleración).
6. ¿Utilizando un ajuste linealizable se mejoran los ajustes lineales estudiados?
7. Estudiar la existencia de datos atípicos y datos in�uyentes en los ajustes lineales olinealizables obtenidos.�
Problema 4.17. �Los siguientes datos representan el Producto Nacional Bruto deUSA (X) y los gastos de consumo (Y ) en miles de millones de dólares de 1972, entre losaños 1960-1980
Año 1960 1961 1962 1963 1964 1965 1966
PNB 73702 75606 80003 83205 87604 92903 98408
GC 45200 46104 48200 50005 52800 55705 58507
Año 1967 1968 1969 1970 1971 1972 1973
PNB 1;01104 1;05801 1;08706 1;08506 1;12204 1;18509 1;25500
GC 60207 63404 65709 67201 69608 73701 76805
Año 1974 1975 1976 1977 1978 1979 1980
PNB 1;24800 1;23309 1;30004 1;37107 1;43609 1;48300 1;48007
GC 76306 78002 82307 86309 90408 93009 93501
1. Ajustar un modelo lineal e interpretar los coe�cientes de regresión estimados.
2. Hacer la grá�ca de los residuos frente al tiempo. Estudiar la hipótesis de indepen-dencia.
3. Si existe una autocorrelación positiva, transformar los datos y ajustar el modelo deregresión lineal a los datos (mínimos cuadrados generalizados).�
Problema 4.18. �Para las compañías de seguros de hogar tiene interés estimar elcoste de reemplazar algunos objetos. Una de estas compañías estaba interesada en estimarel coste de reemplazar una colección de 1554 libros a partir de una muestra de 100 libros.El coste de los cien libros muestrales se obtenía de los catálogos de las editoriales y sialgún libro estaba descatalogado su valor se calculaba utilizando el precio de un libro desimilares características. Los precios están en peniques.
Prácticas y problemas de regresión lineal simple. 19
Dado que el valor de los libros era muy variable, en un intento de conseguir una mayorexactitud, se utilizó como regresora para explicar el precio de un libro el ancho del lomodel mismo (medido en milímetros). El ancho total de los 1.554 libros era de 25.182 mm.
Los datos de los cien libros se encuentran en el �chero problema-4-18. En base aestos datos, se pide:
1. Analizar estadísticamente las variables precio y ancho del libro.
2. ¿Existe una relación entre ambas variables?
3. Estimar el coste de toda la colección. En una primera aproximación sin tener encuenta la variable ancho de los libros y, en segundo lugar, teniendo en cuenta estavariable.�
Problema 4.19. �El �chero problema-4-19 contiene datos de dos nubes de pun-tos bidimensionales ((x; Y1) y (x; Y2)). Estos datos son debidos a Wampler y los generópor simulación para comprobar cuando un determinado programa estadístico realiza conexactitud el ajuste por mínimos cuadrados.
1. Ajustar a estas dos nubes de puntos un polinomio.
2. ¿Qué grado de polinomio se debe ajustar?, ¿es el ajuste bueno? ¿exacto?�.
Problema 4.20. �Los datos de la tabla adjunta son el conjunto clásico de datos deltest psicológico de Strong sobre retención de memoria. Los datos se tomaban de la siguientemanera: un conjunto de individuos memorizaban una lista de objetos inconexos y pasadoun tiempo la recordaba. La variable p indica el porcentage de retención de memoria enpromedio y la variable t es el tiempo transcurrido. El objetivo del estudio era explicar lavariable p en función de t:
t p t p t p t p1 0084 60 0054 720 0036 10080 0008
5 0071 120 0047 1440 0026
15 0061 240 0045 2880 0020
30 0056 480 0038 5760 0016
1. Analizar este conjunto de datos y estudiar la relación de la variable p respecto a t:
2. Estudiar analítica y gra�cámente un modelo del tipo p = exp(��t) que sugiere unapérdida geométrica de la memoria.
3. Estudiar analítica y gra�cámente un modelo del tipo log p = �0 + �1t: ¿Qué inter-pretación tiene este modelo?, ¿Qué ajuste es mejor?�.
20 Modelos estadísticos aplicados. Juan Vilar
Problema 4.21. �El �chero problema-4-21 contiene datos de 78 ciervos de Escociaen los que se estudia el crecimiento de los dientes. Para todos los ciervos de un rebaño sesupone que el crecimiento de los dientes �naliza a la misma edad y después la velocidadde desgaste es la misma para todos los animales y constante en el tiempo. La aleatoriedaden los resultados es debida al peso de la corona en la madurez que sigue una distribuciónnormal y la edad de la madurez no es conocida con exactitud. A los ciervos de la muestrase les tomo la edad y el peso en gramos del primer molar. En base a estos datos:
1. Estudiar la relación del peso respecto a la edad.
2. Hacer los contrastes de regresión y de linealidad.
3. Analizar los residuos, ¿se veri�can las hipótesis básicas?�.
Problema 4.22. �En los sitemas productivos de ovejas tiene un gran interés controlarlas necesidades energéticas de cada animal ya que in�uyen en la predicción de la producciónde carne. Por ello, se ha tomado una muestra de 64 ovejas australianas y, a cada una deellas, se le controló su peso x (en kilogramos), y sus necesidades energéticas diarias Ymedidas en Mcal/día. Los resultados de la muestra se presentan en el �chero problema-4-22. En base a estos datos muestrales:
1. Estudiar la relación lineal de Y respecto a x:
2. Estimar la media de consumo energético de las ovejas que pesan 30, 40, 50 y 60 Kgr.Calcular intervalos de con�anza al 90% para estos valores. Hacer el mismo cálculopero considerando la predicción del consumo energético de una oveja de ese peso.Calcular intervalos de predicción.�
Problema 4.23. �El �chero problema-4-23 contiene dos conjuntos de datos bidi-mensionales en los que no existe una relación lineal pero si es fácil encontrar la relaciónexistente entre las dos variables.
El primer conjunto tiene 25 observaciones de molinos de viento para la producciónde energía eléctrica, la variable X1 mide la velocidad del viento y la variable Y 1 mide lacorriente eléctrica obtenida.
El segundo conjunto tiene 19 observaciones relativas a la producción del papel, lavariable X2 mide la resistencia del papel fabricado y la variable Y 2 mide la proporción demadera en la pulpa a partir de la cual se obtiene el papel.
1. En ambos casos, dibujar la grá�ca de la nube de puntos.
2. Obtener el modelo de regresión que mejor se ajusta a la nube de observaciones.¿Existe ajustes que mejoran al lineal?, ¿el ajuste realizado es su�cientemente bueno?
3. Analizar los residuos de los modelos ajustados�.
Prácticas y problemas de regresión lineal simple. 21
Problema 4.24. �El �chero problema-4-24 contiene datos relativos al peso del cuer-po (X; en kilogramos) y el peso del cerebro (Y; en gramos) de 28 especies de animales. Enbase a estos datos:
1. ¿Se observa en esta nube algún dato atípico?
2. Transformar los datos para que se pueda hacer una grá�ca de los mismos. Realizarla grá�ca de los datos transformados.
3. Ajustar un modelo de regresión lineal a los datos transformados. ¿Es el ajusteadecuado? Interpretarlo.
4. En el modelo transformado ¿Existen datos atípicos?�.
Problema 4.25. �La dureza de los árboles es difícil de medir directamente, sin em-bargo la densidad si es relativamente fácil de medir. Por ello es de gran interés disponerde un modelo que permita predecir la dureza de un árbol a partir de su densidad. Por estemotivo se ha tomado una muestra de 36 eucaliptos australianos y se les midió su densidad(X) y su dureza (Y ). Los resultados obtenidos son los de la tabla adjunta.
Densidad Dureza Densidad Dureza Densidad Dureza2407 484 3904 1210 5304 1880
2408 427 3909 989 5600 1980
2703 413 4003 1160 5605 1820
2804 517 4006 1010 5703 2020
2804 549 4007 1100 5706 1980
2900 648 4007 1130 5902 2310
3003 587 4209 1270 5908 1940
3207 704 4508 1180 6600 3260
3506 979 4609 1400 6704 2700
3805 914 4802 1760 6808 2890
3808 1070 5105 1710 6901 2740
3903 1020 5105 2010 6901 3140
En base a estos datos:
1. Estudiar el modelo de regresión lineal de Y respecto a X:
2. Ajustar a estos datos un polinomio de grado a determinar. ¿Se mejora de formaapreciable el ajuste lineal?
3. Con el mejor ajuste predecir la dureza de un árbol de densidad 20, 40, 60 y 80.
4. Calcular intervalos de con�anza y de predicción al 90% para las estimaciones delapartado anterior.
5. Analizar los residuos del modelo ajustado.
6. Considerar una transformación de los datos de la dureza (Y ) y ajustar un modelo deregresión. ¿El modelo ajustado con los datos transformados mejora al ajuste polinómico?�
Recommended