26
Modelos de regresión - Máster en Técnicas Estadísticas 2021-2022 Tema 1. Modelo de regresión lineal simple Área de Estatística e I.O., USC Índice 1. Introducción 1 2. Elementos de un modelo de regresión: el modelo lineal 3 2.1. Hipótesis del modelo ................................... 4 2.2. Tipo de diseño ....................................... 5 3. Estimación de los parámetros por mínimos cuadrados 6 4. Propiedades de los estimadores 8 4.1. Propiedades de ˆ β 1 .................................... 8 4.2. Propiedades de ˆ β 0 .................................... 9 4.3. Estimador de σ 2 ...................................... 10 5. Inferencia sobre los parámetros 10 5.1. Inferencia sobre β 0 .................................... 11 5.2. Inferencia sobre β 1 .................................... 12 5.3. Inferencia sobre σ 2 .................................... 12 6. Descomposición de la variabilidad. El test F 15 7. Predicción 18 7.1. Estimación de la media condicionada .......................... 18 7.2. Predicción de una nueva observación .......................... 19 I

Tema 1. Modelo de regresión lineal simple

  • Upload
    others

  • View
    33

  • Download
    0

Embed Size (px)

Citation preview

Page 1: Tema 1. Modelo de regresión lineal simple

Modelos de regresión - Máster en Técnicas Estadísticas 2021-2022

Tema 1. Modelo de regresión lineal simple

Área de Estatística e I.O., USC

Índice

1. Introducción 1

2. Elementos de un modelo de regresión: el modelo lineal 3

2.1. Hipótesis del modelo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4

2.2. Tipo de diseño . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5

3. Estimación de los parámetros por mínimos cuadrados 6

4. Propiedades de los estimadores 8

4.1. Propiedades de β1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8

4.2. Propiedades de β0 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9

4.3. Estimador de σ2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10

5. Inferencia sobre los parámetros 10

5.1. Inferencia sobre β0 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11

5.2. Inferencia sobre β1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12

5.3. Inferencia sobre σ2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12

6. Descomposición de la variabilidad. El test F 15

7. Predicción 18

7.1. Estimación de la media condicionada . . . . . . . . . . . . . . . . . . . . . . . . . . 18

7.2. Predicción de una nueva observación . . . . . . . . . . . . . . . . . . . . . . . . . . 19

I

Page 2: Tema 1. Modelo de regresión lineal simple

Tema 1. Modelo de regresión lineal simple

1. Introducción

Para representar la dependencia de una variable Y (variable dependiente, variable respuesta) conrespecto a otra variable X (variable independiente, variable explicativa), se utilizan los modelos deregresión. En este tema trataremos el modelo de regresión lineal simple.

Aunque los modelos de regresión fueron utilizados con anterioridad en Astronomía y Física porLaplace y Gauss, su nombre genérico, modelos de regresión, proviene de los trabajos de Galtonen Biología a finales del siglo XIX. Galton estudió la dependencia de la estatura de los hijos (Y )respecto a la de sus padres (X), encontrando lo que denominó una regresión a la media: los padresaltos tienen en general hijos altos, pero en promedio no tan altos como sus padres; los padresbajos tienen hijos bajos, pero en promedio más altos que sus padres. Desde entonces, los modelosestadísticos que explican la dependencia de una variable Y respecto de una o varias variables X

se denominan modelos de regresión.

Los modelos de regresión se diseñan con dos objetivos:

Conocer de qué modo la variable Y depende de X. En este sentido, el modelo de regresiónpermite describir la forma de dependencia.

Una vez construido el modelo de regresión, podemos utilizarlo para realizar predicciones delvalor de Y cuando se conoce el valor de X.

Por ejemplo, podemos pensar en un modelo de regresión que represente el crecimiento de bacteriasque producen caries, en función de la concentración de azúcar. En este caso, la variable Y seríael crecimiento bacteriano, medido por el número de bacterias al cabo de un cierto tiempo; mientrasque la concentración de azúcar sería la variable X.

Resulta muy interesante disponer de un modelo de regresión que represente cómo evoluciona elcrecimiento bacteriano según sea la concentración de azúcar. En principio, parece que concentra-ciones altas de azúcar darán lugar a un mayor crecimiento bacteriano. Pero además, el modelode regresión servirá para predecir el crecimiento bacteriano cuando se conoce la concentraciónde azúcar, y esta predicción será mucho más precisa que la que podríamos obtener sin tener encuenta la concentración de azúcar.

Los modelos de regresión se pueden comparar con otros modelos de las ciencias experimentales,como las leyes de los gases ideales o las leyes de la gravitación, que se suelen plantear comomodelos deterministas: conocidas las variables explicativas la variable respuesta se puede prede-cir con total exactitud. En el ejemplo de los gases, conocida la temperatura, podemos predecir lapresión que ejercerá el gas.

Sin embargo, en la vida real a menudo la predicción con exactitud es imposible, y en su lugar ne-cesitamos modelos que permitan aprovechar el conocimiento de variables explicativas, pero que

Modelos de regresión. Profesores de la materia, Área de Estadística e IO, USC

Page 3: Tema 1. Modelo de regresión lineal simple

Tema 1. Modelo de regresión lineal simple

además incorporen una componente de error impredecible, que vendría ocasionado por errores demedida, por la influencia de otras variables no controlables, o por una aleatoriedad intrínseca ala variable respuesta. Cuando un modelo matemático incorpora una componente aleatoria se diceque es un modelo estocástico, a diferencia de los modelos deterministas, que carecen de ella. Losmodelos de regresión que vamos a estudiar en este tema son modelos estocásticos.

Ejemplo. En este tema consideraremos el ejemplo de Sheather (2009) sobre tiempos en una ca-dena de producción. Se dispone del tiempo (en minutos) que lleva producir cada pedido, que de-notamos por Y , junto con el número de unidades solicitadas, denotado por X, para 20 pedidosseleccionados aleatoriamente. Los datos figuran a continuación:

RunTime RunSize195 175215 189243 344162 88185 114231 338234 271166 173253 284196 277220 337168 58207 146225 277169 123215 227147 63230 337208 146172 68

Estamos ante un problema de regresión, pues interesa conocer la dependencia que presenta eltiempo empleado, en función del número de unidades del pedido. Además, será necesario predecirel tiempo, Y , para poder atender un pedido cuyas unidades son X.

Modelos de regresión. Profesores de la materia, Área de Estadística e IO, USC

Page 4: Tema 1. Modelo de regresión lineal simple

Tema 1. Modelo de regresión lineal simple

En la siguiente figura se representa el diagrama de dispersión de Y frente a X para el ejemplo:

50 100 150 200 250 300 350

160

180

200

220

240

Diagrama de dispersión

Run Size

Run

Tim

e

Figura 1: Diagrama de dispersión para el tiempo de producción (Run Time) frente al número deunidades (Run Size), para 20 pedidos.

2. Elementos de un modelo de regresión: el modelo lineal

En términos generales, la regresión se suele formalizar como la media condicionada de la variablerespuesta en función del valor que tome la variable explicativa. Se trataría, pues, de la funciónsiguiente:

m(x) = E(Y/X = x) para cada posible valor x de X.

Por tanto, podemos descomponer la variable respuesta en función del resultado de X (a través dela media condicionada), más un error de media cero:

Y = m(X) + ε

donde ε se conoce como error y verifica E(ε/X = x) = 0 para todo x. Este es el concepto deregresión en los términos más generales.

Para construir el modelo de regresión específico en cada caso, se tiene en cuenta si hay una solao varias variables explicativas, o variables respuesta, si éstas son discretas o continuas, la formade la función de regresión (lineal, polinómica, u otras), el tipo de distribución del error, la forma deobtener los datos muestrales, y otros aspectos que al final permiten configurar el modelo adecuado.

En este tema, se considerará un modelo muy sencillo de regresión: modelo de regresión linealsimple. En este modelo tanto la variable respuesta Y , como la variable explicativa X, se suponenunivariantes, esto es, cada una de ellas refleja el valor de una sola característica.

Modelos de regresión. Profesores de la materia, Área de Estadística e IO, USC

Page 5: Tema 1. Modelo de regresión lineal simple

Tema 1. Modelo de regresión lineal simple

2.1. Hipótesis del modelo

Las hipótesis básicas de este modelo son las siguientes:

Linealidad. La función de regresión es una línea recta. En consecuencia, el modelo se sueleescribir así:

Y = β0 + β1X + ε

donde β0 y β1 son parámetros, en principio desconocidos, y ε es una variable aleatoria noobservable, y que contiene la variabilidad no atribuible a la variable explicativa sino debida aerrores de medición u otros factores no controlables.

Homocedasticidad. La varianza del error es la misma cualquiera que sea el valor de lavariable explicativa:

Var(ε/X = x) = σ2 para todo x.

Normalidad. El error tiene distribución normal

ε ∈ N(0, σ2

)Independencia. Las variables aleatorias que representan los errores ε1, . . . , εn son mutua-mente independientes, entendiendo que vamos a obtener una muestra de n observacionesbajo el modelo de regresión. Esta suposición dice que los n errores (no observados) seríanmutuamente independientes.

La hipótesis de linealidad consiste en suponer que la media de la variable respuesta toma un valorinicial β0 cuando la variable explicativa x vale cero, y además dicha media crece en una cantidadfija β1 cada vez que x se incrementa en una unidad.

La hipótesis de linealidad hace que estemos ante un modelo paramétrico, porque supone quela función de regresión es una recta pero deja libertad al valor concreto de la pendiente β1 yla ordenada en el origen β0, que son parámetros que debemos estimar en base a una muestra(X1, Y1), . . . , (Xn, Yn). Esta suposición se puede relajar considerando otro dipo de dependenciafuncional entre Y y X de tipo paramétrico (p.e. modelos polinómicos) o incluso sin suposición pa-ramétrica alguna a través de métodos no paramétricos.

Las hipótesis de homocedasticidad y normalidad constituyen simplificaciones muy útiles para poderllevar a cabo las tareas de inferencia bajo un modelo de regresión cualquiera, y también en el casodel modelo lineal.

Finalmente, la suposición de independencia de los errores es conveniente para poder desarrollarinferencia, pero además es razonable suponerla cierta, por ejemplo, en los casos en que la muestraestá constituida por experimentos sobre individuos diferentes.

Modelos de regresión. Profesores de la materia, Área de Estadística e IO, USC

Page 6: Tema 1. Modelo de regresión lineal simple

Tema 1. Modelo de regresión lineal simple

2.2. Tipo de diseño

Para poder estimar los parámetros del modelo (β0 y β1), como ya hemos adelantado, necesitamosdatos experimentales (una muestra). Distinguiremos dos tipos de diseño experimental.

Diseño fijo. Los valores de la variable explicativa están fijados por el experimentador, deacuerdo a un diseño conveniente de cara a la viabilidad del experimento o a su eficienciaestadística.

Por ejemplo, podemos fijar distintas concentraciones de nutrientes y medir el crecimientobacteriano que se obtiene en cada una de ellas.

En este caso los valores de la variable explicativa no son aleatorios, y sólo es aleatorio elerror y, en consecuencia, la variable respuesta. Por tanto, la muestra resultante de un diseñofijo sería del tipo:

(x1, Y1) , . . . , (xn, Yn)

Diseño aleatorio. En este caso tanto la variable explicativa como la variable respuesta sonaleatorias.

Por ejemplo, nos interesa un modelo de regresión donde la variable explicativa sea el tamañode los peces de cierta especie (medido mediante la longitud) y la variable respuesta sea laconcentración de cierto ácido graso. Si el experimento consiste en tomar peces al azar enun río y medir su longitud y su concentración del ácido graso, entonces ambas variables sonaleatorias y por tanto se trata de un diseño aleatorio.

En definitiva, la muestra reultante de un diseño aleatorio sería del tipo:

(X1, Y1) , . . . , (Xn, Yn)

En adelante supondremos diseño fijo. Aún así, según se vayan obteniendo los procedimientos es-tadísticos, iremos indicando en qué medida se pueden aplicar bajo diseño aleatorio.

En resumen, un modelo de regresión lineal simple, homocedástico, con errores normales e in-dependientes, del que extraemos una muestra bajo diseño fijo nos proporciona datos del tipo(x1, Y1), . . . , (xn, Yn), donde x1, . . . , xn son valores fijados por el experimentador, mientras que

Yi = β0 + β1xi + εi para i ∈ {1, . . . , n}

siendo ε1, . . . , εn ∈ N(0, σ2), independientes.

Modelos de regresión. Profesores de la materia, Área de Estadística e IO, USC

Page 7: Tema 1. Modelo de regresión lineal simple

Tema 1. Modelo de regresión lineal simple

En el ejemplo observando la Figura 1, parecen cumplirse las hipótesis de linealidad, homocedasti-cidad, normalidad de los errores e independencia. Asimismo, se trata de un diseño aleatorio, puesno se han fijado los tamaños de los pedidos, sino que se tomaron directamente de la experiencia dela empresa. Para que fuera un diseño fijo, la empresa tendría que producir ex profeso ciertos lotescon tamaños fijados, con el propósito de estimar el modelo.

En el tema siguiente veremos cómo valorar si se cumplen las suposiciones del modelo. De momen-to, las asumimos como ciertas.

3. Estimación de los parámetros por mínimos cuadrados

En esta sección obtendremos estimadores para los parámetros β0 y β1 en base a una muestra(x1, Y1), . . . , (xn, Yn). Supondremos las hipótesis de linealidad, homocedasticidad, normalidad, di-seño fijo e independencia de los errores.

Recordemos que la recta de regresión se va a usar para predecir el valor de Y a partir de un valorde x. Así, denotando por β0 y β1 los estimadores de los parámetros, para el valor x de la variableexplicativa daríamos la predicción β0 + β1x de la variable respuesta. Aplicando esto a los datosmuestrales, para el valor observado xi tendríamos la predicción β0 + β1xi, mientras que hemosobservado Yi. En definitiva, tendríamos los siguientes errores de predicción:

εi = Yi − β0 − β1xi para i ∈ {1, . . . , n},

los cuales se denominan residuos de la regresión (véase Figura 2 para una representación de losresiduos sobre los datos del ejemplo).

La idea consiste en escoger los estimadores β0 y β1 que den lugar a los residuos más pequeños.Con este objetivo, y para evitar que se compensen los residuos positivos con los negativos, seusa la suma de los cuadrados de los residuos como criterio a minimizar. Así, los estimadores pormínimos cuadrados son β0 y β1 tales que

n∑i=1

(Yi − β0 − β1xi

)2= mın

β0,β1

n∑i=1

(Yi − β0 − β1xi)2

La minimización se realiza calculando las derivadas parciales respecto de β0 y β1, igualándolas acero y despejando de ambas ecuaciones los valores de β0 y β1 candidatos a mínimo. El cálculode las segundas derivadas prueba que en efecto constituyen un mínimo absoluto de la suma decuadrados de los residuos. Como resultado se obtienen los estimadores

β0 = Y − SxY

S2x

x β1 =SxY

S2x

Modelos de regresión. Profesores de la materia, Área de Estadística e IO, USC

Page 8: Tema 1. Modelo de regresión lineal simple

Tema 1. Modelo de regresión lineal simple

50 100 150 200 250 300 350

160

180

200

220

240

Run Size

Run

Tim

e

Figura 2: Diagrama de dispersión para el tiempo de producción (Run Time) frente al número deunidades (Run Size) con recta ajustada por mínimos cuadrados. Los segmentos verticales repre-sentan los residuos de la regresión.

donde x = 1n

∑ni=1 xi, Y = 1

n

∑ni=1 Yi son las medias respectivas de la variable explicativa y la

variable respuesta, SxY = 1n

∑ni=1(xi − x)(Yi − Y ) es la covarianza y S2

x = 1n

∑ni=1(xi − x)2 es la

varianza de la variable explicativa.

La recta de regresión estimada por mínimos cuadrados es la que pasa por el vector de medias ocentro de gravedad, (x, Y ), y tiene pendiente β1 =

SxYS2x

.

Sobre el ejemplo. Si consideramos el modelo Y = β0 + β1x + ε, las estimaciones por mínimoscuadrados para β0 y β1 son:

β0 = 149,748, β1 = 0,259.

Estas estimaciones las podemos obtener utilizando la función lm de .

Estimamos la varianza del error σ2 mediante

σ2 =1

n− 2

n∑i=1

ε2i =1

n− 2

n∑i=1

(Yi − β0 − β1xi

)2Empleamos la suma de cuadrados de los residuos, pero dividimos por (n− 2) en lugar de hacerlopor n, para que el estimador sea insesgado. Esto se debe a que se han tenido que estimar dosparámetros β0 y β1.

Sobre el ejemplo. La función lm, además de proporcionar los valores de los coeficientes estimadospor mínimos cuadrados, también proporciona los residuos de la regresión, en un vector. La estima-

Modelos de regresión. Profesores de la materia, Área de Estadística e IO, USC

Page 9: Tema 1. Modelo de regresión lineal simple

Tema 1. Modelo de regresión lineal simple

ción de la varianza del error puede obtenerse sumando sus componentes al cuadrado y dividiendopor (n− 2). Como resultado se obtiene:

σ2 =1

20− 2

((195− 149,7− 0,295 ∗ 175)2 + · · ·+ (172− 149,7− 0,295 ∗ 68)2

)=

1

18

((−0,115)2 + · · ·+ (4,624)2

)= 264,14

La desviación típica del error se estimaría simplemente calculando la raíz cuadrada del valor ante-rior:

σ =√264,14 = 16,25

4. Propiedades de los estimadores

En esta sección estudiaremos las propiedades de los estimadores que acabamos de obtener. Paradeducir las propiedades vamos a emplear las suposiciones de linealidad, homocedasticidad, nor-malidad, diseño fijo e independencia que hemos considerado en la construcción del modelo. Em-pezamos destacando la suposición de diseño fijo, pues hace que las observaciones de la variableexplicativa x1, . . . , xn no sean aleatorias, y sólo lo sean las observaciones de la variable respuestaY1, . . . , Yn.

4.1. Propiedades de β1

El estimador de la pendiente se puede expresar

β1 =SxY

S2x

=

∑ni=1(xi − x)(Yi − Y )

nS2x

=n∑

i=1

(xi − x)

nS2x

(Yi − Y ) =n∑

i=1

ωi(Yi − Y )

donde los pesos ωi =(xi−x)nS2

xsólo dependen de los valores de la variable explicativa, y por tanto no

son aleatorios.

En consecuencia, podemos calcular la esperanza así:

E(β1

)=

n∑i=1

ωiE(Yi − Y

) (a)=

n∑i=1

(xi − x)

nS2x

β1 (xi − x) = β1

En la igualdad (a) hemos empleado la suposición de linealidad. Observamos que β1 es un estimadorinsesgado de β1.

Para obtener la varianza, nos conviene expresar β1 así:

β1 =n∑

i=1

ωi(Yi − Y ) =n∑

i=1

ωiYi

Modelos de regresión. Profesores de la materia, Área de Estadística e IO, USC

Page 10: Tema 1. Modelo de regresión lineal simple

Tema 1. Modelo de regresión lineal simple

lo cual es correcto ya que∑n

i=1 ωi = 0. Entonces

Var(β1

)(a)=

n∑i=1

ω2i Var (Yi)

(b)=

n∑i=1

(xi − x)2

n2S4x

σ2 =σ2

nS2x

En la igualdad (a) hemos usado la suposición de independencia y en la igualdad (b) la homocedas-ticidad.

De esta expresión deducimos que la varianza del estimador de la pendiente será:

a) Tanto mayor cuanto mayor sea la varianza del error, σ2. Esto es lógico pues al aumentar lavarianza del error, los datos aparecerán más alejados de la recta de regresión, y será másdifícil estimar los parámetros de la recta en base a ellos.

b) Será más pequeña si los valores x1, . . . , xn tienen mucha dispersión.

c) Será más pequeña si disponemos de muchos datos, o lo que es lo mismo, si el tamañomuestral n es grande.

Por último, bajo la suposición de normalidad, el estimador β1 también tiene distribución normal,pues es combinación lineal de las variables Y1, . . . , Yn que son normales e independientes.

Por tanto:

β1 ∈ N

(β1,

σ2

nS2x

)

4.2. Propiedades de β0

La ordenada en el origen, β0, es el valor que toma la recta de regresión cuando x = 0. Salvoen las pocas ocasiones en que nos interese la media de la variable respuesta cuando la variableexplicativa tome el valor cero, la ordenada en el origen tiene poco interés, y en general mucho menosque la pendiente. Aún así, calcularemos la esperanza y la varianza del estimador β0, y veremos quepresenta distribución normal, todo ello mediante argumentos muy similares a los empleados con β1.

Como β0 = Y − β1x, entonces

E(β0

)= E

(Y)− xE

(β1

)= β0 + β1x− xβ1 = β0,

y en consecuencia β0 es un estimador insesgado de β0.

Para calcular la varianza, vamos a expresar β0 así:

β0 = Y − β1x =n∑

i=1

Yin

−n∑

i=1

xωiYi =n∑

i=1

(1

n− xωi

)Yi

Modelos de regresión. Profesores de la materia, Área de Estadística e IO, USC

Page 11: Tema 1. Modelo de regresión lineal simple

Tema 1. Modelo de regresión lineal simple

De este modo,

Var(β0

)(a)=

n∑i=1

(1

n− xωi

)2

Var (Yi)(b)= σ2

n∑i=1

(1

n2+ x2ω2

i − 2xωi

n

)(c)= σ2

(1

n+

x2

nS2x

)En la igualdad (a) hemos usado la suposición de independencia, en la igualdad (b) la homocedas-ticidad y en la igualdad (c) hemos aplicado que

∑ni=1 ωi = 0 y que

∑ni=1 ω

2i = 1

nS2x

.

Podemos descomponer esta expresión de la varianza en dos términos: σ2/n y (σ2x2)/(nS2x), que

asociamos respectivamente con Y y β1x, de cuya diferencia se obtiene β0. Así, σ2/n es la partede la varianza de β0 que se debe a la estimación de la media Y , mientras que (σ2x2)/(nS2

x) es laparte asociada a la estimación de la pendiente. Aquí el factor x2 indica que cuanto más lejos estéx del origen, más varianza tendrá el estimador de la ordenada en el origen, siendo por tanto másimpreciso.

Igual que antes, al haber expresado β0 =∑n

i=1

(1n − xωi

)Yi, y en consecuencia como combinación

lineal de las variables Y1, . . . , Yn, bajo suposición de independencia y normalidad tendríamos queβ0 tiene distribución normal.

Por tanto:

β0 ∈ N

(β0, σ

2

(1

n+

x2

nS2x

))

4.3. Estimador de σ2

Para el estimador de la varianza del error, una demostración algo más compleja que las anterioresy que vamos a omitir, nos conduciría a la siguiente distribución de tipo ji-cuadrado:

(n− 2)σ2

σ2∈ χ2

n−2

De aquí se deduce que σ2 es un estimador insesgado de σ2. De hecho, la aparición de (n − 2)

grados de libertad es el motivo por el que hemos dividido la suma de cuadrados de los residuos por(n− 2), en lugar de por n, para calcular el estimador de la varianza.

5. Inferencia sobre los parámetros

Hasta aquí hemos visto cómo se estiman los parámetros β0, β1 y σ2 involucrados en el modelolineal simple, y hemos analizado las propiedades de los estimadores: esperanza, varianza y distri-bución. En esta sección realizaremos las otras dos tareas de la Inferencia: intervalos de confianzay contraste de hipótesis; para cada uno de ellos.

Modelos de regresión. Profesores de la materia, Área de Estadística e IO, USC

Page 12: Tema 1. Modelo de regresión lineal simple

Tema 1. Modelo de regresión lineal simple

5.1. Inferencia sobre β0

Empezamos recordando que la desviación típica de un estimador se conoce como su error típi-co, que es la característica principal de los estimadores insesgados y simétricos, como son β0 yβ1. Realmente en la sección anterior hemos calculado la varianza de estos estimadores, así queefectuando una raíz cuadrada ya llegaríamos al error típico.

En concreto, para β0 tendríamos:

Error Típico(β0

)= σ

√1

n+

x2

nS2x

Para construir intervalos de confianza o realizar contrastes de hipótesis, podríamos usar comopivote la estandarización de β0, esto es:

Z =β0 − β0

σ√

1n + x2

nS2x

∈ N(0, 1)

aunque para ello habría que conocer la varianza del error, σ2.

Como lo más habitual es que σ2 sea desconocida, se suele estimar el error típico mediante

Error Típico(β0

)= σ

√1

n+

x2

nS2x

para después recurrir al pivote

T =β0 − β0

σ√

1n + x2

nS2x

∈ Tn−2

donde la distribución normal estándar se ha sustituido por la T de Student.

En base a este pivote, el intervalo de confianza para β0 con nivel de confianza (1 − α), estarácentrado en β0, y su radio será el producto del cuantil de la T de Student por el error típico estimado:

I =

(β0 − tα/2 σ

√1

n+

x2

nS2x

, β0 + tα/2 σ

√1

n+

x2

nS2x

)

Para el contraste de hipótesis relativas a β0 también podemos utilizar este estadístico pivote. Así,por ejemplo, rechazaremos la hipótesis nula H0 : β0 ≥ 2 en favor de Ha : β0 < 2 si

T =β0 − 2

σ√

1n + x2

nS2x

< −tn−2,α.

Modelos de regresión. Profesores de la materia, Área de Estadística e IO, USC

Page 13: Tema 1. Modelo de regresión lineal simple

Tema 1. Modelo de regresión lineal simple

5.2. Inferencia sobre β1

Para la pendiente, β1, el pivote sería

Z =β1 − β1

σ/ (Sx√n )

∈ N(0, 1) si σ es conocida

y

T =β1 − β1

σ/ (Sx√n )

∈ Tn−2 si σ es desconocida.

De nuevo, como σ2 suele ser desconocida, se estima el error típico mediante

Error Típico(β1

)=

σ

Sx√n

y se construye el intervalo de confianza para β1 con nivel de confianza (1 − α), de la siguientemanera:

I =

(β1 − tn−2,α/2

σ

Sx√n, β1 + tn−2,α/2

σ

Sx√n

)lo cual vuelve a estar centrado en el estimador β1, y tiene de radio el producto del cuantil de la T deStudent por el error típico estimado.

En cuestión de contraste, una hipótesis nula del tipo H0 : β1 = 3 se rechazaría en favor de lahipótesis alternativa Ha : β1 = 3 si

|T | =

∣∣∣β1 − 3∣∣∣

σ/ (Sx√n )

> tn−2,α/2

Tiene especial interés el contraste de la hipótesis nula H0 : β1 = 0, pues de ser cierta esta hipó-tesis la función de regresión sería una recta horizontal, y nos encontraríamos con que la variableexplicativa no influye en la variable respuesta. Así, rechazaremos H0 : β1 = 0 si

|T | =

∣∣∣β1∣∣∣σ/ (Sx

√n )

> tn−2,α/2

y en tal caso diremos que β1 ha tomado un valor significativamente distinto de cero.

5.3. Inferencia sobre σ2

Para la varianza del error, σ2, el pivote sería

χ2 =(n− 2)σ2

σ2∈ χ2

n−2

Modelos de regresión. Profesores de la materia, Área de Estadística e IO, USC

Page 14: Tema 1. Modelo de regresión lineal simple

Tema 1. Modelo de regresión lineal simple

En base a este pivote, el intervalo de confianza para σ2 con nivel de confianza (1 − α), se puedeconstruir así

I =

((n− 2)σ2

χ2n−2,α/2

,(n− 2)σ2

χ2n−2,1−α/2

)Se rechazaría, por ejemplo, la hipótesis nula H0 : σ

2 ≥ 4 en favor de la alternativa Ha : σ2 < 4 si

(n− 2)σ2

4< χ2

n−2,1−α

En este caso no se emplea el concepto de error típico, porque el estimador σ2 no es simétrico entorno a σ2, y de hecho tampoco se obtienen intervalos de confianza simétricos en torno al estimadorσ2.

Sobre el ejemplo. Utilizando la función summary sobre el modelo de regresión ajustado, se obtienela siguiente salida de resultados:

> summary(m1)

Call:

lm(formula = RunTime ~ RunSize)

Residuals:

Min 1Q Median 3Q Max

-28.597 -11.079 3.329 8.302 29.627

Coefficients:

Estimate Std. Error t value Pr(>|t|)

(Intercept) 149.74770 8.32815 17.98 6.00e-13 ***

RunSize 0.25924 0.03714 6.98 1.61e-06 ***

---

Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Residual standard error: 16.25 on 18 degrees of freedom

Multiple R-squared: 0.7302, Adjusted R-squared: 0.7152

F-statistic: 48.72 on 1 and 18 DF, p-value: 1.615e-06

En esta salida podemos distinguir los siguientes elementos:

Bajo el título Call: se presenta el modelo en lenguaje .

Modelos de regresión. Profesores de la materia, Área de Estadística e IO, USC

Page 15: Tema 1. Modelo de regresión lineal simple

Tema 1. Modelo de regresión lineal simple

Bajo el título Residuals: se presenta un estudio descriptivo, en términos de cuantiles, de losresiduos.

Bajo el título Coefficients: se ofrecen los elementos básicos de inferencia para los paráme-tros de la recta.

Estimate Son las estimaciones de los coeficientes.

Std. Error Son los errores típicos.

t value Son los cocientes entre las estimaciones y los errores típicos.

Pr(>|t|) Son los niveles críticos para el contraste de que el coeficiente vale cero.

Las tres últimas líneas presentan un estudio de la variabilidad, donde en este ejemplo pode-mos extraer:

La desviación típica del error (dice residual, por ser su valor estimado con los residuos) es16.25, lo cual se calculó con 18 grados de libertad.

El coeficiente de determinación (cuadrado del coeficiente de correlación) vale 0.7302. Enel próximo tema estudiaremos el coeficiente de determinación, su significado e inter-pretación como medida de la calidad del modelo. También veremos el coeficiente dedeterminación ajustado, que en esta salida arroja el valor 0.7152.

La última línea proporciona los resultados del test F , que se estudia en la próxima sección.Figura el valor del estadístico 48.72, los grados de libertad de numerador y denominador,1 y 18, respectivamente, y el nivel crítico, 1.615x10−6.

Los asteriscos que acompañan a los niveles críticos son una simbología para indicar sihay mucha significación. Aparecen tres asteriscos si el nivel crítico es inferior a 0.001 (eluno por mil), dos asteriscos si está entre 0.01 y 0.001 (entre el uno por mil y el uno porcien), y así sucesivamente según se explica en la línea titulada Signif. codes:.

Nótese que el "t value" es el estadístico para el contraste de que el coeficiente vale cero. La pro-babilidad que deja a ambos lados de la distribución T de Student es el nivel crítico que figura en lacolumna "Pr(>|t|)".

A la vista de estos reultados, podemos deducir, por ejemplo, que la pendiente de la recta de regre-sión es significativamente distinta de cero, dicho de manera más detallada, la pendiente estimadaes distinta de cero y constituye una prueba significativa de que la "verdadera pendiente" es distintade cero. En este ejemplo, si la pendiente fuera cero, estaríamos en un modelo que predice el mismotiempo para cualquier tamaño de pedido, lo cual es contradictorio con los datos.

Para calcular un intervalo de confianza se podría emplear la estimación y el error típico de estasalida de resultados. Para el cuantil de la T de Student se puede emplear la función qt de . Así,por ejemplo, el intervalo de confianza para β0 con nivel del 95 % sería:

Modelos de regresión. Profesores de la materia, Área de Estadística e IO, USC

Page 16: Tema 1. Modelo de regresión lineal simple

Tema 1. Modelo de regresión lineal simple

( 149.75 - 2.10*8.328 , 149.75 + 2.10*8.328 ) = ( 132.25 , 167.24 )

Lo anterior es a modo ilustrativo, pues los intervalos de confianza se pueden obtener directamentemediante la función confint:

> confint(m1,level=0.95)

2.5 % 97.5 %

(Intercept) 132.2509062 167.2444999

RunSize 0.1812107 0.3372755

Con lo cual, tendríamos que

- IC al 95 % para β0: ( 132.25 , 167.24 )- IC al 95 % para β1: ( 0.181 , 0.337 )

6. Descomposición de la variabilidad. El test F

Los métodos de regresión explican cómo la variable respuesta, Y , se comporta de distinta maneraen función del valor que tome la variable explicativa, X. En consecuencia, parte de la variabilidadde Y quedaría justificada por la influencia de la variable X, mientras que otra parte sería debida alerror del modelo.

Además, gracias al modelo de regresión podemos obtener predicciones más precisas de Y enbase al valor conocido de X = xi, que si no conociéramos dicho valor. Así, sin tener en cuentala variable explicativa X, la mejor predicción que podemos hacer de Y es su media, Y , mientrasque si sabemos que X = xi la predicción será β0 + β1xi, el valor correspondiente en la recta deregresión. Sin usar la recta de regresión, los residuos obtenidos serían Yi − Y mientras que losresiduos vendrían dados por Yi − β0 − β1xi usando la recta de regresión.

Observemos que la suma de cuadrados de los residuos sin usar la recta de regresión es∑ni=1(Yi − Y )2, que dividido por n o (n − 1), da lugar a la varianza o cuasivarianza de Y , que

son medidas de la variabilidad de Y .

Además, los residuos sin tener en cuenta el modelo se pueden escribir como:

Yi − Y =(Yi − β0 − β1xi

)+(β0 + β1xi − Y

),

por lo que podemos descomponer (Yi− Y )2 a través del cuadrado de esa suma, y efectuar la sumaen todos los datos, obteniendo:

n∑i=1

(Yi − Y

)2=

n∑i=1

(Yi − β0 − β1xi

)2+

n∑i=1

(β0 + β1xi − Y

)2Modelos de regresión. Profesores de la materia, Área de Estadística e IO, USC

Page 17: Tema 1. Modelo de regresión lineal simple

Tema 1. Modelo de regresión lineal simple

Es habitual representar esta situación mediante la llamada tabla de análisis de la varianza.

Fuente de variación Suma de cuadrados Grados de libertad

Debida a la regresiónn∑

i=1

(β0 + β1xi − Y

)21

Debida al errorn∑

i=1

(Yi − β0 − β1xi

)2n− 2

Totaln∑

i=1

(Yi − Y

)2n− 1

Como vemos, la variabilidad de toda la muestra se descompone en dos sumandos. El primero deellos representa las desviaciones de las predicciones respecto a la media global. Por tanto, sirvecomo medición de la variabilidad que podemos explicar en base al modelo de regresión. El segundorepresenta las desviaciones de los valores observados Yi respecto de las predicciones, y en con-secuencia refleja la variabilidad no explicada por la regresión, sino debida al error. Por este motivo,también se le conoce como varianza residual, pues de hecho se obtiene a través de los residuosde la regresión.

Esta descomposición de la variabilidad, aparte del interés en sí misma, se suele emplear paraefectuar lo que se conoce como test F , que consiste en contrastar:

H0 : Y = β0 + ε para algún β0

Ha : Y = β0 + β1X + ε para algún β0 y algún β1

Como vemos, se trata de contrastar si la función de regresión es una recta horizontal, como hipó-tesis nula, o en su defecto, si hay pruebas significativas de que la función de regresión constituyeuna recta no horizontal. En el primer caso no sería necesaria la regresión, pues la media de Y

es la misma, β0, cualquiera que sea el valor de X, mientras que en el segundo, si la recta no eshorizontal, la regresión aportaría información relevante sobre Y . Por este motivo, se conoce comoun contraste de la regresión. Observamos también que coincide con el contraste de la hipótesisnula H0 : β1 = 0, que hemos visto anteriormente.

El test F se utiliza para efectuar el contraste de la regresión basado en el estadístico:

F =

∑ni=1

(β0 + β1xi − Y

)2∑n

i=1

(Yi − β0 − β1xi

)2/(n− 2)

∈ F1,n−2

y que posee la distribución indicada, que da nombre al test. Rechazaremos la hipótesis nula si lavariabilidad explicada es grande en comparación con la variabilidad residual, pues esto constituiríauna prueba de que la regresión es relevante ya que a ella se debe una parte sustancial de la

Modelos de regresión. Profesores de la materia, Área de Estadística e IO, USC

Page 18: Tema 1. Modelo de regresión lineal simple

Tema 1. Modelo de regresión lineal simple

variabilidad. Así, si se hubiera fijado un nivel de significación α, se rechazaría la hipótesis nulacuando F > f1,n−2,α, porque se habrían encontrado pruebas significativas a ese nivel de que lafunción de regresión no es horizontal.

Se puede ver que el test F es equivalente al test propuesto en la página 12 para la hipótesis nulaH0 : β1 = 0.

Sobre el ejemplo. En la salida de resultados de la función summary (vista en la sección anterior) yase proporcionó el valor del estadístico F, los grados de libertad de numerador y denominador, y elnivel crítico del test. Se pueden obtener resultados más detallados, incluyendo todos los elementosde la tabla de análisis de la varianza, mediante la función anova de .

> anova(m1)

Analysis of Variance Table

Response: RunTime

Df Sum Sq Mean Sq F value Pr(>F)

RunSize 1 12868.4 12868.4 48.717 1.615e-06 ***

Residuals 18 4754.6 264.1

---

Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Esta salida de resultados es simplemente la tabla ANOVA, quizá con las columnas colocadas enotro orden, y con la columna añadida Mean Sq. En concreto, los elementos son:

Df Son los grados de libertad.

Sum Sq Es la suma de cuadrados.

Mean Sq Es lo que se conoce como cuadrado medio, que es la suma de cuadrados dividida porlos grados de libertad. Tiene interés calcular el cuadrado medio, porque el estadístico F noes más que el cociente de los dos cuadrados medios, el correspondiente a la regresión y elcorrespondiente al error (o a los residuos). Además, el cuadrado medio residual es precisa-mente el estimador de la varianza del error.

F value Valor del estadístico F.

Pr(>F) Nivel crítico del test F.

Así, en este ejemplo, el valor del estadístico de contraste es F = 48,717, con un nivel críticoasociado de 1.615x10−6. Por tanto, la hipótesis nula de que la recta de regresión es horizontal

Modelos de regresión. Profesores de la materia, Área de Estadística e IO, USC

Page 19: Tema 1. Modelo de regresión lineal simple

Tema 1. Modelo de regresión lineal simple

no se acepta, con las significaciones usuales (10 %, 5 % y 1 %). Observamos que el nivel críticocoincide con la significación obtenida para el coeficiente β1, pues, como ya indicamos, el test F esequivalente al test de significación de la pendiente, en el caso de regresión lineal simple.

7. Predicción

Un modelo de regresión permite, en primer lugar, estimar las medias condicionadas de Y paracada valor de la variable explicativa x; en segundo lugar, también permite prever futuros valores dela variable respuesta.

Tanto la estimación de la media, como la predicción del valor de Y se obtienen sustituyendo en larecta de regresión el valor de x, y calculando el valor Y ; por tanto, sus valores numéricos son idén-ticos. Sin embargo, la precisión de estas estimaciones es distinta, como veremos a continuación.

7.1. Estimación de la media condicionada

Supongamos que se desea estimar el valor de la media de Y cuando la variable explicativa tomacierto valor x0. Entonces el modelo de regresión postula que dicha media será E(Y/X = x0) =

β0 + β1x0, y sustituyendo los valores estimados de los parámetros de la recta de regresión, resulta

Y0 = β0 + β1x0 = Y + β1 (x0 − x)

Se puede ver que Y0 es un estimador insesgado de E(Y/X = x0) y que su varianza vale

Var(Y0

)=

σ2

n0

siendo

n0 =n

1 + (x0−x)2

S2x

Interpretamos n0 como el número equivalente de observaciones disponibles para la estimación deE(Y/X = x0). Así, si x0 = x, disponemos de n observaciones, pero según x0 se aleja de x escomo si fuéramos teniendo menos observaciones. La razón es que el punto x0 está cada vez máslejos de los n valores muestrales en los que se basa la estimación.

Un intervalo de confianza para la media condicionada podría obtenerse así(Y0 − tn−2,α/2

σ√n0

, Y0 + tn−2,α/2σ

√n0

)Modelos de regresión. Profesores de la materia, Área de Estadística e IO, USC

Page 20: Tema 1. Modelo de regresión lineal simple

Tema 1. Modelo de regresión lineal simple

7.2. Predicción de una nueva observación

Para predecir el valor concreto que tomará la variable Y (y no sólo su media, como hacíamosantes), vamos a usar el mismo valor Y0, pero debemos pensar no en cómo Y0 se aproxima a lamedia condicionada E(Y/X = x0) = β0 + β1x0, sino en cómo se aproxima a la nueva observaciónY0 = β0 + β1x0 + ε.

Es fácil ver que E(Y0) = E(Y0), pero ahora debemos plantear

E[(

Y0 − Y0

)2]= Var

(Y0

)+ Var (Y0) = σ2

[1 +

1

n0

]

En consecuencia, el intervalo de confianza para la predicción de la nueva observación Y0 será(Y0 − tn−2,α/2 σ

√1 +

1

n0, Y0 + tn−2,α/2 σ

√1 +

1

n0

)

Sobre el ejemplo. Vamos a considerar la predicción para siete nuevos valores de X:

50, 100, 150, 200, 250, 300, 350

proporciona las predicciones e intervalos de confianza, tanto para la media condicionada comopara la predicción, con el comando predict, según vemos a continuación:

> newRunSize<-c(50,100,150,200,250,300,350)

> predict(m1,newdata=data.frame(RunSize=newRunSize),interval="confidence",level=0.95)

fit lwr upr

1 162.7099 148.6204 176.7994

2 175.6720 164.6568 186.6872

3 188.6342 179.9969 197.2714

4 201.5963 193.9600 209.2326

5 214.5585 206.0455 223.0714

6 227.5206 216.7006 238.3407

7 240.4828 226.6220 254.3435

> predict(m1,newdata=data.frame(RunSize=newRunSize),interval="prediction",level=0.95)

fit lwr upr

1 162.7099 125.7720 199.6478

Modelos de regresión. Profesores de la materia, Área de Estadística e IO, USC

Page 21: Tema 1. Modelo de regresión lineal simple

Tema 1. Modelo de regresión lineal simple

2 175.6720 139.7940 211.5500

3 188.6342 153.4135 223.8548

4 201.5963 166.6076 236.5850

5 214.5585 179.3681 249.7489

6 227.5206 191.7021 263.3392

7 240.4828 203.6315 277.3340

La primera matriz de resultados contiene los intervalos para la estimación de la media condicionaday la segunda para la predicción. En la columna titulada “fit” se presentan las predicciones, en latitulada “lwr” (abreviatura de lower, en inglés) los extremos inferiores de los intervalos, y en la quelleva por título “upr” (abreviatura de upper) los extremos superiores.

Así, por ejemplo, para x0 = 100, la estimación/predicción sería 175.67 y el intervalo para la predic-ción: ( 139.79 , 211.55 )

La sintaxis del comando predict es algo compleja en lo que respecta a los nuevos valores de X.Esto se debe a que está diseñada para regresión múltiple, con varias variables explicativas, conlo cual habría que proporcionar los valores de todas las variables (y todos los individuos) en undata.frame. En este caso el data.frame sólo tiene una columna, e indicamos que sitúe el vectornewRunSize en esa única columna correspondiente a la variable RunSize.

En la Figura 3 se han representado los intervalos para la media condicionada y la predicción. Ob-servamos que los intervalos para la predicción son más amplios que los intervalos para la mediacondicionada, como ya se podía deducir de las expresiones anteriores.

Asimismo, para valores de X más próximos a la media de las observaciones x, los intervalos sonmás pequeños, sobre todo en el caso de la media condicionada. Esto se debe al número equiva-lente de observaciones, n0, que surge en la expresión del intervalo, y que indica que una estima-ción/predicción de Y en valores de X dentro del conjunto de observaciones es más precisa quepara valores de X lejanos. En valores interiores de X haríamos interpolación mientras que paravalores lejanos se trataría de extrapolación. Es siempre más arriesgado extrapolar que interpolar.

Esta diferencia de amplitud entre interpolación y extrapolación resulta más notorio en el caso dela media condicionada, pues para la predicción queda enmascarado por el incremento debido a laaleatoriedad de Y0.

Como última observación, destacamos que aumentando el tamaño muestral n se pueden obtenerestimaciones cada vez más precisas (tanto como se desee) de los parámetros del modelo, y tam-bién de la media condicionada, de modo que los intervalos a la izquierda de la Figura 3 se podríanhacer tan pequeños como se desee incrementando el tamaño muestral. No ocurre así con la pre-dicción, intervalos a la derecha. Aumentando el tamaño muestral se contraerán los intervalos, perosólo hasta un punto en el cual queda la aleatoriedad de la nueva respuesta Y0. El radio mínimo,

Modelos de regresión. Profesores de la materia, Área de Estadística e IO, USC

Page 22: Tema 1. Modelo de regresión lineal simple

Tema 1. Modelo de regresión lineal simple

150

200

250

Intervalos media

150

200

250

Intervalos predicción

Figura 3: Intervalos de confianza, al 95 %, para la media condicional (izquierda) y para la predicción(derecha) con siete nuevos valores para el número de unidades.

imposible de contraer, sería zα/2σ.

Modelos de regresión. Profesores de la materia, Área de Estadística e IO, USC

Page 23: Tema 1. Modelo de regresión lineal simple

Tema 1. Modelo de regresión lineal simple

Ejercicios propuestos

Instrucciones:

Para el seguimiento de este tema, se ofrecen a continuación diferentes bases de datos, que sirvecada una como ejemplo para el análisis de regresión lineal simple.

Se propone que con cada base de datos/ejercicio que recorran las distintas secciones del temaefectuando los análisis de manera semejante a lo realizado con el ejemplo de los apuntes. Enconcreto, se puede emplear como guión la siguiente relación de tareas:

(a) Identifica la variable explicativa y la variable respuesta. Justifícalo.

(b) Representa el diagrama de dispersión de la variable respuesta sobre la variable explicativa.Explica alguna característica visible en el diagrama: tendencia creciente, posible linealidad,dispersión en torno a la tendencia, u otras.

(c) Ajusta el modelo: estimaciones de la ordenada en el origen y de la pendiente (con posiblesinterpretaciones), varianza y desviación típica del error.

(d) Representa el diagrama de dispersión con la recta ajustada, e identifica, si es posible, algunacaracterística especial de los residuos.

(e) Calcula los intervalos de confianza para la ordenada en el origen y la pendiente, y efectúa algúncontraste que pueda tener interés, comúnmente será el de que la pendiente vale cero.

(f) Presenta la tabla ANOVA e interpreta brevemente los resultados.

(g) Construye una rejilla de valores de la variable explicativa y representa los intervalos de confian-za para la estimación de la media condicionada y para la predicción. Aporta algún comentariosobre los resultados. Si procede, considera algún valor de la variable explicativa cuya predic-ción pueda tener interés particular.

Relación de bases de datos/ejercicios

1. Se han tomado cinco muestras de glucógeno, se les han aplicado ciertas cantidades de glu-cogenasa diseñadas previamente, y en cada caso se ha anotado la velocidad de reacciónresultante. Se obtuvo así la siguiente tabla:

Cantidad de glucogenasa (en milimoles/litro) 0,2 0,5 1 2 3

Velocidad de reacción (en µ-moles/minuto) 8 10 18 35 60

Realiza un análisis de regresión lineal simple de la velocidad de reacción en función de laconcentración de glucogenasa.

Modelos de regresión. Profesores de la materia, Área de Estadística e IO, USC

Page 24: Tema 1. Modelo de regresión lineal simple

Tema 1. Modelo de regresión lineal simple

2. Se ha medido el contenido de oxígeno de un lago a ciertas profundidades, obteniéndose lossiguientes datos:

Profundidad (en metros) 15 20 30 40 50 60 70

Contenido de oxígeno (en mg/l) 6,5 5,6 5,4 6,0 4,6 1,4 0,1

Se propone un modelo de regresión lineal simple del contenido de oxígeno sobre la profundi-dad.

3. En 1978 tres autores publicaron un estudio sobre el comportamiento de la lluvia bajo unentorno forestal. En dicho estudio se incluyeron las mediciones de lluvia recogida en 12 tor-mentas, tanto en la zona exterior colindante con el bosque como en el interior del bosque. Losresultados se encuentran en la tabla siguiente.

Tormenta Lluvia exterior Lluvia interior1 10.1 6.52 10.7 1.73 12.5 6.74 12.7 5.15 12.8 3.76 14.9 11.37 18.3 10.18 18.3 9.69 25.8 13.310 26.5 14.711 29.4 9.812 39.7 24.0

Se plantea un estudio de regresión de la lluvia interior sobre la lluvia exterior.

4. Se está haciendo un estudio epidemiológico sobre la hipertensión. En concreto, se deseaestudiar el efecto de la edad sobre la presión arterial en la población general. Se toman losdatos de veinte personas, con los resultados siguientes:

Edad 24 26 28 28 30 31 32 33 33 33

Presión arterial máxima 9 11 10 10 12 9 13 13 14 8

Edad 35 37 38 42 45 48 51 53 64 71

Presión arterial máxima 9 14 12 15 16 13 15 17 10 11

Estudia el modelo de regresión lineal simple de la presión sobre la edad.

5. Se intenta mejorar el rendimiento de una producción de cereal mediante regadío. Para ello,conviene conocer cómo afecta la cantidad de riego sobre el crecimiento del cereal. Con este

Modelos de regresión. Profesores de la materia, Área de Estadística e IO, USC

Page 25: Tema 1. Modelo de regresión lineal simple

Tema 1. Modelo de regresión lineal simple

motivo, se ha diseñado un estudio experimental en el cual se observa el crecimiento de laplanta en un mes, bajo ciertas condiciones de riego predeterminadas. Los resultados figuranen la tabla siguiente:

Cantidad de riego (en litros) 20 25 30 40 50 50 60 70 75 80

Crecimiento de la planta (en centímetros) 40 50 75 70 95 100 90 110 120 130

Estudia el modelo de regresión lineal simple del crecimiento de la planta sobre la cantidad deriego.

6. El desarrollo de una especie de ácaro depende, entre otros factores, de la humedad am-biental. Para estudiar este hecho, se ha planteado un experimento que consiste en hacer unrecuento de individuos en ambientes de cultivo del ácaro, cuando son sometidos a diversosporcentajes de humedad. Los datos obtenidos son los siguientes:

Humedad 50 50 55 55 60 60 65 65 70 70

Número de individuos 11 25 42 43 77 66 77 88 70 100

Humedad 70 70 75 75 80 80 85 85 90 90

Número de individuos 97 95 97 96 108 96 98 99 73 79

Estudia un modelo de regresión lineal del número de ácaros sobre la humedad.

7. Se está evaluando la dosis de un antibiótico ante un proceso infeccioso recurrente. Para ello,se estudia el porcentaje de recaídas de la infección ante diversas dosis. Los datos obtenidosson los siguientes:

Dosis en mg 360 380 400 420 440 460 480 500 520 540

Porcentaje de recaídas 28 33 27 27 32 25 21 25 9 22

Dosis en mg 560 580 600 620 640

Porcentaje de recaídas 15 16 16 6 7

Estudia un modelo de regresión lineal del porcentaje de recaídas frente a la dosis del antibió-tico.

8. Se está realizando un estudio sobre la producción de madera que se obtiene de cierta espe-cie arbórea. Esta especie alcanza la mayor producción en zonas costeras o de baja altitud,mientras que la producción es menor en zonas más elevadas. Para constatar este hecho yevaluarlo de manera empírica, se registran las producciones de treinta parcelas semejantessituadas a diferentes altitudes. Los datos se ofrecen a continuación. Bajo la letra A figura la

Modelos de regresión. Profesores de la materia, Área de Estadística e IO, USC

Page 26: Tema 1. Modelo de regresión lineal simple

Tema 1. Modelo de regresión lineal simple

altitud en metros, y bajo la letra P figura la producción en metros cúbicos.

A P A P A P A P A P A P0 29,3 10 28,3 15 26,7 80 15,3 125 13,8 230 4,8

0 30,3 10 31,2 25 22,6 80 14,4 135 9,9 250 5,1

5 28,6 10 28,5 50 18,5 100 15,6 150 8,9 260 4,3

5 36,2 10 31,1 50 23,7 110 13,4 205 6,0 280 4,0

5 24,5 15 26,5 80 16,4 115 13,2 230 4,8 285 4,0

Realiza un estudio de la regresión lineal de la producción de madera sobre la altitud.

9. Se están estudiando las propiedades físicas de cierta tela retardante de la llama. En concreto,interesa conocer la relación entre la rigidez y el espesor de la tela. Se han tomado seismuestras de tela y se han obtenido los resultados siguientes:

Espesor (mm) 0, 28 0, 65 0, 32 0, 27 0, 81 0, 57

Rigidez (mg-cm) 7, 98 24, 52 12, 47 6, 92 24, 11 35, 71

Realiza un estudio de la regresión lineal de la rigidez sobre el espesor.

10. Se obtuvieron los siguientes resultados al analizar un conjunto de soluciones patrón de platapor espectrometría de absorción atómica.

Concentración (ng/ml) 0 5 10 15 20 25 30

Absorbancia 0,003 0,127 0,251 0,390 0,498 0,625 0,763

Realiza un estudio de la regresión lineal de la absorbancia sobre la concentración de plata.

11. Se ha examinado una serie de soluciones patrón de fluoresceína en un espectrómetro defluorescencia, y se han obtenido las siguientes intensidades de fluorescencia (en unidadesarbitrarias):

Concentración pg/ml 0 2 4 6 8 10 12

Intensidad de fluorescencia 2, 1 5, 0 9, 0 12, 6 17, 3 21, 0 24, 7

Realiza un estudio de la regresión lineal de la intensidad de fluorescencia sobre la concentra-ción de fluoresceína.

12. El programa incluye en su módulo básico muchas bases de datos de ejemplos. Una de ellascontiene datos relativos a un experimento químico de calibración para la curva de determi-nación del formaldehido. Los datos se pueden cargar con el comando data(Formaldehyde).El método de determinación consiste en emplear un reactivo y observar el resultado de unaespectrofotometría. La base de datos contiene seis observaciones, con dos variables: el car-bohidrato y la densidad óptica. Se pide: Realiza un estudio de la regresión lineal de la densi-dad óptica sobre el carbohidrato.

Modelos de regresión. Profesores de la materia, Área de Estadística e IO, USC