5
Introducción a la regresión lineal En la práctica, es frecuente que se requiera resolver problemas que implican conjuntos de variables de las cuales se sabe que tienen alguna relación inherente entre sí. Por ejemplo, en una situación industrial quizá se sepa que el contenido de alquitrán en la corriente de salida de un proceso químico está relacionado con la temperatura en la entrada. Podría ser de interés desarrollar un método de pronóstico, es decir, un procedimiento para estimar el contenido de alquitrán de varios combustibles de la temperatura de entrada, a partir de información experimental. Pero, por supuesto, es muy probable que para muchos ejemplos concretos en los que la temperatura de entrada sea la misma, por ejemplo 130 C, el contenido de alquitrán a la salida no sea el mismo. Esto se parece mucho a lo que ocurre cuando se estudian varios automóviles con el mismo volumen en su motor. No todos recorrerán la misma distancia por unidad de gasolina. Si se consideraran viviendas en la misma parte del país que tuvieran la misma superfi cie habitable, no signifi caría que todas se venderían al mismo precio. El contenido de alquitrán, las millas por unidad de gasolina (mpg), y el precio de las casas (en miles de dólares) son variables dependientes naturales o respuestas en los tres escenarios. La temperatura en la entrada, el volumen del motor (pies cúbicos) y los pies cuadrados de área habitable son, respectivamente, variables independientes naturales o regresores. Una forma razonable de relación entre la respuesta Y y el regresor x es la relación lineal Y = α + βx, donde, por supuesto, α es la intersección y β es la pendiente. La relación se ilustra en la figura 5.1.

Introducción a La Regresión Lineal

Embed Size (px)

DESCRIPTION

Estadística

Citation preview

Page 1: Introducción a La Regresión Lineal

Introducción a la regresión linealEn la práctica, es frecuente que se requiera resolver problemas que implican conjuntosde variables de las cuales se sabe que tienen alguna relación inherente entre sí.Por ejemplo, en una situación industrial quizá se sepa que el contenido de alquitránen la corriente de salida de un proceso químico está relacionado con la temperatura enla entrada. Podría ser de interés desarrollar un método de pronóstico, es decir, unprocedimiento para estimar el contenido de alquitrán de varios combustibles de latemperatura de entrada, a partir de información experimental. Pero, por supuesto,es muy probable que para muchos ejemplos concretos en los que la temperatura deentrada sea la misma, por ejemplo 130 ◦C, el contenido de alquitrán a la salida nosea el mismo. Esto se parece mucho a lo que ocurre cuando se estudian varios automóvilescon el mismo volumen en su motor. No todos recorrerán la misma distanciapor unidad de gasolina. Si se consideraran viviendas en la misma parte del país quetuvieran la misma superfi cie habitable, no signifi caría que todas se venderían almismo precio. El contenido de alquitrán, las millas por unidad de gasolina (mpg), yel precio de las casas (en miles de dólares) son variables dependientes naturaleso respuestas en los tres escenarios. La temperatura en la entrada, el volumen delmotor (pies cúbicos) y los pies cuadrados de área habitable son, respectivamente,variables independientes naturales o regresores. Una forma razonable de relaciónentre la respuesta Y y el regresor x es la relación linealY = α + βx,donde, por supuesto, α es la intersección y β es la pendiente. La relación se ilustraen la figura 5.1.

Figura 5.1. Una relación lineal.

Si la relación es exacta, entonces se trata de una determinista entre dos variablescientífi cas, y no contiene ningún componente aleatorio o probabilístico. Sinembargo, en los ejemplos que se mencionaron, así como en muchos otros fenómenoscientífi cos y de ingeniería, la relación no es determinista (es decir, una x dada nosiempre produce el mismo valor de Y ). Como resultado, existen problemas importantesque son de naturaleza probabilística, toda vez que la relación anterior no

Page 2: Introducción a La Regresión Lineal

puede considerarse exacta. El concepto de análisis de regresión tiene que ver con encontrar la mejor relación entre Y y x, al cuantifi car la intensidad de dicha relación

y emplear métodos que permitan predecir los valores de la respuesta ante valoresdados del regresor x.

Un análisis de la relación entre Y y x requiere el planteamiento de un modeloestadístico. Con frecuencia, un modelo es usado por un estadístico como representaciónde un ideal que, en esencia, defi ne cómo percibimos que el sistema en cuestióngeneró los datos. El modelo debe incluir al conjunto [(xi, yi); i = 1, 2, . . . , n]de datos que implica n parejas de valores (x, y). Debe tenerse en cuenta que elvalor de yi depende de xi por medio de una estructura lineal que también incluyeel componente aleatorio. La base para el uso de un modelo estadístico relaciona laforma en que la variable aleatoria Y cambia con x y el componente aleatorio. Elmodelo también incluye las suposiciones acerca de las propiedades estadísticas delcomponente aleatorio. A continuación se da el modelo estadístico para la regresiónlineal simple.

Del modelo anterior se hacen evidentes varias cuestiones. La cantidad Y es unavariable aleatoria, ya que ε es aleatoria. El valor x de la variable regresora no esaleatorio y, de hecho, se mide con un error despreciable. La cantidad ε , que con frecuenciarecibe el nombre de error aleatorio o alteración aleatoria, tiene varianzaconstante. Es frecuente que a esta parte de las suposiciones se le llame la suposiciónde varianza homogénea. La presencia de este error aleatorio, ε , impide queel modelo sea tan sólo una ecuación determinista. Ahora, el hecho de que E(ε) = 0implica que para una x específi ca los valores de y se distribuyen alrededor de la rectaverdadera o recta de regresión de la población y = α + βx. Si se elige bien elmodelo, (esto es, no hay regresores adicionales de importancia y la aproximaciónlineal es buena dentro de los rangos de los datos), entonces son razonables los errorespositivos y negativos alrededor de la regresión verdadera. Debe recordarse que en lapráctica se desconocen α y β, y que deben estimarse a partir de los datos. Además,el modelo que se acaba de describir es de naturaleza conceptual. Como resultado, enla práctica nunca se observan los valores reales ε , por lo que nunca se puede trazar laverdadera recta de regresión (aunque se acepta que ahí está). Únicamente es posibledibujar una recta estimada. La fi gura 5.2 ilustra la naturaleza de los datos (x, y)hipotéticos dispersos alrededor de la verdadera recta de regresión para un caso enque sólo se dispone de n = 5 observaciones. Debe destacarse que lo que observamosen la fi gura 5.2 no es la recta que utilizan el científi co o ingeniero. En vez de ello,¡la ilustración únicamente describe el signifi cado de las suposiciones! A continuaciónse describirá la regresión que el usuario tiene a su disposición.

Page 3: Introducción a La Regresión Lineal

La recta de regresión ajustadaUn aspecto importante del análisis de regresión es, simplemente, estimar los parámetrosα y β (es decir, estimar los llamados coeficientes de regresión). En la secciónsiguiente se estudiará el método para estimarlos. Suponga que los estimados de α y βse denotan con a y b, respectivamente. Entonces, la recta de regresión ajustada,o estimada, está dada por

yˆ = a + bx,

donde yˆ es el valor pronosticado o ajustado. Es evidente que la recta ajustada es unaestimación de la verdadera recta de regresión. Se espera que la recta ajustada estémás cerca de la verdadera línea de regresión cuando se disponga de una gran cantidad de datos.