19
Cap´ ıtulo 3 Anexo: Estad´ ıstica descriptiva bivariante 1. Introducci´ on. 2. Descripci´ on de datos mediante de frecuencias bivariantes. 3. Descripci´ on de datos bivariantes mediante gr´acos de dispersi´on. 4. Relaci´ on lineal entre dos variables. 5. La recta de regresi´on simple. 0 Apuntes realizados por Ismael S´ anchez para la asignatura de Estad´ ıstica. Universidad Carlos III de Madrid. Todos los derechos reservados. 1

Anexo: Estad´ıstica descriptiva bivariante · esta distribuci´on de frecuencias, que es tambi´en univariante, se le denomina distribuci´on condi-cionada. Por ejemplo, los valores

  • Upload
    others

  • View
    3

  • Download
    0

Embed Size (px)

Citation preview

Page 1: Anexo: Estad´ıstica descriptiva bivariante · esta distribuci´on de frecuencias, que es tambi´en univariante, se le denomina distribuci´on condi-cionada. Por ejemplo, los valores

Capıtulo 3

Anexo: Estadıstica descriptivabivariante

1. Introduccion.

2. Descripcion de datos mediante de frecuencias bivariantes.

3. Descripcion de datos bivariantes mediante graficos de dispersion.

4. Relacion lineal entre dos variables.

5. La recta de regresion simple.

0Apuntes realizados por Ismael Sanchez para la asignatura de Estadıstica. Universidad Carlos III de Madrid.Todos los derechos reservados.

1

Page 2: Anexo: Estad´ıstica descriptiva bivariante · esta distribuci´on de frecuencias, que es tambi´en univariante, se le denomina distribuci´on condi-cionada. Por ejemplo, los valores

2 Anexo: Estadıstica descriptiva bivariante

3.1. Introduccion.

En este capıtulo continuamos describiendo un conjunto de datos, pero ahora los datos tieneninformacion de dos variables. Nuestro interes en este tema continua siendo el resumen de variablescuantitativas. Por ejemplo, para una misma persona podemos tener su edad y su salario. Paraun artıculo manufacturado podemos tener informacion de mas de una dimension. Nos interesa elestudio conjunto de ambas variables, y en particular saber si estan relacionadas o por el contrarioson variables independientes. En el caso en el que esten relacionadas, nos interesara poder describircomo es su relacion: lineal o no lineal.Nos interesara especialmente el caso en el que ambas variables esten relacionadas de forma

lineal. En ese caso, es facil construir un modelo lineal que resuma dicha relaccion. Este modelopuede utilizarse, por ejemplo, para predecir que valor tomara una variable en un individuo a partirdel valor de la otra varable. La tecnica estadıstica que emplearemos para modelizar esta relacionlineal es la de regresion simple por mınimos cuadrados.

3.2. Descripcion de datos mediante tablas de frecuenciasbivariantes. Distribucion marginal y condicionada

Si se tiene mas de una variable de cada individuo, puede realizarse una tabla de frecuenciascomo en el caso univariante. Por ejemplo, con dos variables se tendra una tabla de doble entradadonde cada dimension correspondera a una variable y cada celda de la tabla tendra el numero deindividuos que tengan los correspondientes valores segun la fila y columna en que se encuentre.Dicho valor recibe el nombre de frecuencia conjunta (absoluta o relativa).

Ejemplo 1 La tabla siguiente muestra la tabla de distribucion de frecuencias conjunta paralas variables: numero de hermanos (columnas) y sexo (filas) de 95 estudiantes ((fichero Alum-nosIndustriales.sf3).

Numero de hermanos en funcion del sexo del alumno

En esta tabla puede verse, por ejemplo, que hay 9 alumnos que son hijos unicos, de los cuales 3son chicas y 6 son chicos. En los margenes de la tabla aparecen tambien los totales for filas y porcolumnas, que son precisamente las frecuencias de cada variable por separado. A esta distribucionde frecuencias univariante que aparece en las tablas multivariantes se les denomina distribucionesmarginales, por estar situados en los margenes. Las distribuciones marginales son por tanto lasdistribuciones univariantes. Cada una de las filas o columnas por separado nos mostrara la dis-tribucion de frecuencias de una variable cuando la otra variable toma un valor determinado. A

Page 3: Anexo: Estad´ıstica descriptiva bivariante · esta distribuci´on de frecuencias, que es tambi´en univariante, se le denomina distribuci´on condi-cionada. Por ejemplo, los valores

3.2 Descripcion de datos mediante tablas de frecuencias bivariantes. Distribucion marginal y condicionada3

esta distribucion de frecuencias, que es tambien univariante, se le denomina distribucion condi-cionada. Por ejemplo, los valores de la primera columna de la tabla es la distribucion por sexo delos estudiantes que son hijos unicos..

Las tablas de frecuencias multivariantes tambien pueden contener frecuencias relativas. En estecaso es importante distinguir si el interes esta en la frecuencia relativa conjunta o condicionada,puyes el numero por el que hay que dividir la frecuencia absoluta serıa diferente. Por ejemplo,la tabla anterior muestra la distribucion de frecuencias relativa conjunta, donde en cada celda seencuentra el porcentaje que representan los elementos de dicha celda respecto al total (95 alumnos).

Por ejemplo, los 6 chicos que son hijos unicos son el 6.3% de los estudiantes del aula en que setomaron estos datos. Si lo que se desea es la distribucion de frecuencias relativas condicionada ala variable numero de hermanos, los porcentajes se obtendran dividiendo las frecuencias absolutasentre el total de la fila. Se tendra la siguiente tabla:

Numero de hermanos en funcion del sexo del alumno

En esta tabla puede verse, por ejemplo, que de los 37 estudiantes que tienen 2 hermanos el70,27% (26/37×100) son chicos.

Ejercicios 1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

1. Un proceso productivo tiene dos lıneas de produccion: lınea A y lınea B que funcionan deforma totalmente independiente (distintas maquinas, distintos operarios, etc). Un analistatoma nota al final de cada lınea del numero de defectos que tienen los artıculos que vanproduciendo ambas lıneas. Primero toma nota de 50 artıculos de la lınea A y despues va ala lınea B y toma nota de 50 artıculos de dicha lınea. La tabla siguiente muestra un ejemplode como son los datos:

Numero de defectosArtıculo Lınea A Lınea B

1 0 12 1 13 2 0...

......

50 1 0

Cuando tiene 50 artıculos inspeccionados por cada lınea construye una tabla de frecuencias

Page 4: Anexo: Estad´ıstica descriptiva bivariante · esta distribuci´on de frecuencias, que es tambi´en univariante, se le denomina distribuci´on condi-cionada. Por ejemplo, los valores

4 Anexo: Estadıstica descriptiva bivariante

bivariante, resultando la siguiente tabla:

¿Que opinion te merece la realizacion de esta tabla?

2. En un aula con 25 chicos y 14 chicas se pregunta quien fuma, resultando la siguiente tabla

Fuma No fuma totalChico 12 13 25Chica 8 6 14total 20 19 39

a) ¿Que proporcion de estudiantes fuma?

b) ¿Que propocion de chicas no fuma?

c) ¿Que proporcion de estudiantes son chicos y fumadores?¿Que son el resto de los alum-nos?

d) ¿Cual es la distribucion marginal de frecuencias relativas del sexo de los alumnos?

e) ¿Cual es la distribucion marginal de frecuencias absolutas del sexo de los alumnos?

f ) ¿Cual es la distribucion de frecuencias relativas de la variable sexo condicionada a queson alumnos fumadores?

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

3.3. Descripcion de datos bivariantes mediante graficos dedispersion

Este grafico, tambien conocido como grafico bivariante o grafico XY representa la informacionde dos variables para un conjunto de individuos. Para cada individuo se tiene un dato bivariante:la informacion de la variable x y la de la variable y. En unos ejes de ordenadas se representa cadapunto colocando en el eje x el valor de la primera variable y en el y el de la segunda. Se tendrantantos puntos como tamano de la muestra.

Page 5: Anexo: Estad´ıstica descriptiva bivariante · esta distribuci´on de frecuencias, que es tambi´en univariante, se le denomina distribuci´on condi-cionada. Por ejemplo, los valores

3.4 Relacion lineal entre dos variables 5

Ejemplo 2 El siguiente grafico muestra la informacion de una muestra de 40 vehıculos. Para cadavehıculo se tiene la potencia del motor (eje x) y la velocidad maxima (eje y). El grafico de estos40 puntos, uno por vehıculo, revela que a mayor potencia mayor velocidad maxima, siendo estarelacion lineal (la nube de puntos se extiende a lo largo de una lınea recta imaginaria)

Grafico de dispersion para la velocidad y la potencia de un conjunto de coches

Ejemplo 3 La siguiente figura muestra el grafico de dispersion de la energıa generada en un parqueeolico y la velocidad del viento (fichero parqueeolico1.sf3 (por confidencialidad estos datos hansido contaminados con un ruido)). Cada punto tiene dos valores: la energıa producida en una horay la velocidad registrada del viento en dicha hora. El eje X representa la velocidad (m/s) mediaregistrada en una hora, mientras que el eje Y representa la energıa (kwh) generada en ese tiempo.Puede verse en la figura que hay una clara relacion entre la velocidad del viento y la energıa, peroen este caso dicha relacion es no lineal. A velocidades bajas, la produccion energetica es casi nula.A partir de cierta velocidad mınima, la energıa aumenta de forma creciente. A partir de ciertavelocidad maxima, la energıa generada en una hora apenas varıa y se mantiene proxima a ciertonivel maximo, que es la capacidad maxima de la instalacion.

0 5 10 15 20 250

0.5

1

1.5

2

2.5

3x 10 4

Velocidad horaria media del viento (m/s)

kWh

Energía horaria generada

Potencia horaria media generada en un parque eolico en funcion de la velocidad del viento

3.4. Relacion lineal entre dos variables

En esta seccion presentaremos medidas que resuman la asociacion entre dos variables cuantita-tivas. Estas medidas seran resumenes numericos de las relaciones que se hayan detectado usando losgraficos de dispersion presentados anteriormente. Nos centraremos solamente en relaciones lineales

Page 6: Anexo: Estad´ıstica descriptiva bivariante · esta distribuci´on de frecuencias, que es tambi´en univariante, se le denomina distribuci´on condi-cionada. Por ejemplo, los valores

6 Anexo: Estadıstica descriptiva bivariante

entre dos variables. En esos casos, el grafico de dispersion mostrara una nube de puntos alrededorde cierta linea recta imaginaria. Para resumir el grado de relacion lineal entre dos variables seusan las siguientes medidas: (1) coeficiente de covarianza, (2) coeficiente de correlacion (3) rectade regresion.

3.4.1. Coeficiente de covarianza

Supongamos que para un conjunto de n individuos se tiene informacion de dos variables x e y(datos bidimensiionales). Entonces la covarianza o coeficiente de covarianza se define como

cov(x, y) ≡ sxy =

Pni=1 (xi − x) (yi − y)

n.

Este coeficiente de covarianza tomara valores positivos si hay una relacion lineal positiva entreambas variables; es decir, si al aumentar una de ellas tambien lo hace la otra. El siguiente graficode dispersion ilustra esta covarianza positiva. El grafico (a) muestra el precio del coche y su potenciapara un conjunto de 90 coches europeos, donde la covarianza es 302764. Por el contario, si la relacionlineal es negativa, el coeficiente de covarianza sera negativo, como sucede con los datos de peso delcoche y la distancia que recorrera con un litro de combustible, que posee una covarianza de -1600.

(a) Relacion entre precio y potencia de 90 coches (b) Relacion entre peso y consumo de 90 coches

Si entre ambas variables no hay relacion, la covarianza sera proxima a cero. En estos casos, eldiagrama de dispersion muestra una nube de puntos sin ningun patron de relacion. El signo delcoeficiente de covarianza nos indica claramente el signo de la relacion lineal que exista entre lasvariables. Sin embargo, al depender el coeficiente de covarianza de las unidades de x y de y , elvalor concreto no es facil de interpretar. Por ejemplo, en los dos graficos anteriores, no sabrıamosdecir, a partir de los valores de covarianzas, que relacion lineal es mas fuerte. Para el grafico (a)la covarianza es 302764 dolares×CV, mientras que para el grafico (b) la covarianza es de -1600kilogramos×millas, que no son unidades comparable con dolares×CV.Serıa conveniente por tanto utilizar alguna medida caracterıstica que resuma la relacion lineal

de forma adimensional. Esta medida es el coeficiente de correlacion, que se muestra a continuacion.

3.4.2. Coeficiente de correlacion

La informacion que suministra el coeficiente de correlacion es la misma que la covarianza. Esun coeficiente que mide el grado de relacion lineal entre dos variables tomadas en los mismos

Page 7: Anexo: Estad´ıstica descriptiva bivariante · esta distribuci´on de frecuencias, que es tambi´en univariante, se le denomina distribuci´on condi-cionada. Por ejemplo, los valores

3.4 Relacion lineal entre dos variables 7

individuos, pero usando un valor adimensional. Se define como

r ≡ rxy ≡ r(x, y) =cov(x, y)

sxsy.

Puede demostarse que estara siempre entre -1 y 1. Su interpretacion es

r = 0; no hay relacion lineal

r > 0; relacion lineal positiva

r < 0; relacion lineal negativa

Si r = 1 tendremos una relacion lineal positiva perfecta, en el sentido de que los datos estaranperfectamente alineados segun una recta de pendiente positiva. Analogamente, si r = −1 tendremosuna relacion lineal negativa perfecta. En el caso de las variables precio y potencia mostradasanteriormente la correlacion es 0.73 que es positiva y alta. En el caso de las variables peso ydistancia recorrida, la correlacion es -0.82 que es negativa y muy alta. Cuanto mas proxima este lanube de puntos a una lınea recta mas proximo estara el coeficiente de correlacion a la unidad(en valor absoluto). Por el contrario, cuanto mas dispersa este la nube de puntos, la correlacionestara mas proxima a cero. A continuacion se muestra una serie de figuras donde se representanconjuntos de datos de diferente coeficiente de correlacion.

r=1r=1 r=0.8r=0.8 r=0.06r=0.06

r=-0.94r=-0.94 r=-0.83r=-0.83 r=-0.08r=-0.08

3.4.3. Matrices de covarianzas y correlaciones

Una forma habitual de presentar las medidas de dependencia lineal entre las variables de unconjunto de datos bidimensionales es en forma de matriz. Para el caso de covarianzas se define lamatriz de covarianzas muestral M a la siguiente matriz

M =

∙s2x cov(x, y)

cov(y, x) s2y

¸,

que es simetrica porque cov(x, y) =cov(y, x). Analogamente, se define la matriz de correlacionesmuestral R a la siguiente matriz

R =

∙1 corr(x, y)

corr(y, x) 1

¸,

Page 8: Anexo: Estad´ıstica descriptiva bivariante · esta distribuci´on de frecuencias, que es tambi´en univariante, se le denomina distribuci´on condi-cionada. Por ejemplo, los valores

8 Anexo: Estadıstica descriptiva bivariante

que de nuevo es simetrica porque corr(x, y) =corr(y, x).Esta matriz tiene unos en la diagonal porquerepresentarıan la correlacion de cada variable consigo misma. Es decir, corr(x, x)=1, y corr(y, y)=1.

3.5. La recta de regresion simple

3.5.1. Definicion de la recta de regresion simple

Nuestro interes en el calculo de la correlacion esta en medir la proximidad de la nube de puntosa una lınea recta imaginaria. Lo que vamos a hacer ahora es obtener la ecuacion de esa lınea rectaque sirva de resumen de la relacion entre ambas variables. Es importante recalcar que esta lınearecta es solo una aproximacion de la relacion entre ambas variables. Cuando mas proximo a ±1este el coeficiente de correlacion, mayor sera la capacidad de aproximacion o explicacion de dicharecta como resumen de la relacion entre ambas variables. A este procedimiento de buscar una rectaque aproxime el comportamiento de una nube de puntos le llamaremos ajuste de una recta.Nuestro objetivo es encontrar la recta a+ bx que mejor resuma esa tendencia lineal que muestrala nube de puntos, como se ilustra en esta figura.

Conjunto de datos y recta que resume su tendencia lineal

A la variable que queremos saber su valor le denominamos variable respuesta, y se le suelereservar la letra y. A la variable que vamos a usar para predecir el valor de la variable respuestale denominaremos variable explicativa, y se le suele reservar la letra x. Nuestro interes es en larecta que nos ayude a predecir el valor de y a partir de la observacion de x. Si la nube de puntosformase una lınea recta perfecta (lo que ocurre solo si la correlacion entre ambas es ±1) tendrıamosque y = a + bx, y los valores de a y b los podrıamos calcular usando solo un par de puntos. Encualquier otro caso, si la correlacion es diferente a ±1, es imposible encontrar una lınea recta quepase por todos los puntos. Dada una nube de puntos formada por un conjunto de datos de dosvariables, existen muchos criterios para ajustar una lınea recta, lo que llevarıa a calcular rectasdiferentes segun el criterio que empleemos.Este plantemiento supone que los diferentes valores de y vienen explicados en parte, y de forma

lineal, por otra variable x. Esta relacion puede escribirse como

yi = a+ bxi + ei, (3.1)

donde yi es el valor observado de la variable y para el individuo i-esimo, xi es el valor observado dela variable x para ese mismo individuo, y ei es la parte de yi que no viene explicada por la recta, yrecibe el nombre de residuo o error de prediccion. A la expresion (3.1) se le denominamodelo

Page 9: Anexo: Estad´ıstica descriptiva bivariante · esta distribuci´on de frecuencias, que es tambi´en univariante, se le denomina distribuci´on condi-cionada. Por ejemplo, los valores

3.5 La recta de regresion simple 9

de regresion simple, pues supone un modelo de como se comporta y para determinados valoresde x a traves de una regresion simple. Al valor que resulta de aplicar la recta a+ bx para un valorde x = xi dado, le llamaremos prediccion, y lo denotaremos por el sımbolo y(xi), o simplementeyi. La recta que predice el valor de y cuando se conoce que x = xi puede expresar entonces como

yi = a+ bxi. (3.2)

Por tanto, el residuo puede calcularse como

ei = yi − yi

= yi − (a+ bxi)

La siguiente figura muestra la diferencia entre un valor observado yi y un valor previsto yi para elvalor xi, usando la recta y = a+ bx.

En este caso, el residuo ei es positivo.

3.5.2. La recta de mınimos cuadrados

Como hemos dicho antes, la recta de regresion simple se utilizara para predecir y a partir de x.Esta utilizacion nos ayudara a determinar como construir esa recta dentro de las multiples rectasque pueden pasar por la nube de puntos. Nuestro porblema ahora es, a partir de un conjunto dedatos, encontrar los valores de a y b que proporcionen mejores predicciones de y a partir de x.Diremos que una recta de regresion simple es mejor que otra (que unos valores de a y b son

mas apropiados que otros) si las predicciones son mejores en el sentido de que los residuos sean,en conjunto, menores. La forma mas habitual es determinar el ’tamano’ de los residuos es usandosu suma cuadratica

Pe2i . A esta suma cuadratica le denominaremos funcion de perdida S(a, b),

que es una funcion de a y b, es decir

S(a, b) =nXi=1

e2i =nXi=1

[yi − (a+ bxi)]2.

Se denomina funcion de perdida porque resume lo que se ’pierde’ al usar una recta de regresionsimple. Es decir, S(a, b) cuantifica la parte de y que no viene explicada por x. El objetivo esencontrar los valores de a y b que minimicen S(a, b) para unos datos dados. A los valores que

Page 10: Anexo: Estad´ıstica descriptiva bivariante · esta distribuci´on de frecuencias, que es tambi´en univariante, se le denomina distribuci´on condi-cionada. Por ejemplo, los valores

10 Anexo: Estadıstica descriptiva bivariante

minimizan S(a, b) los denotaremos por a y b. La teorıa estadıstica nos dice que esos valores optimosson

b =cov(x, y)

s2x, (3.3)

a = y − bx. (3.4)

A la recta y = a+ bx que utiliza los valores (3.4) y (3.3) le denominaremos recta de regresionsimple de mınimos cuadrados.

Ejemplo 4 El fichero cardata.sf tiene datos de 155 vehıculos. Entre estos datos tenemos las vari-ables mpg=distancia recorrida con un galon de combustible, y la variable weight=peso del vehıculo.La figura siguiente muestra el grafico de dispersion basado en estos 155 vehıculos.

Datos de peso y consumo de coches

En esta figura puede verse que hay una fuerte tendencia lineal negativa, con un coeficiente de cor-relacion de -0.82. Queremos calcular la recta de regresion que me ayude a dar un valor aproximadode la distancia que recorrera un vehıculo a partir de su peso. Del analisis de los datos tenemos que

cov(mpg,weight)=—3688.24

var(mpg)=54.42

var(weight)=363630

media mpg=28.79

media weight=2672.2

Calcularemos la recta de regresion que nos ayude a predecir la distancia recorrida (mpg) en funciondel peso (weight). Por tanto nuestras variables son y =mpg y x =weight. La recta de regresion esentonces

b =cov(x, y)

s2x=−3688,24363630

= −0,01014

a = y − bx = 28,79− (−0,01014)× 2672,2 = 55,89Supongamos ahora que tenemos un vehıculo que pesa 2600 unidades y que no conozcamos su con-sumo. Usando como aproximacion la anterior recta de regresion podemos predecir que la distanciaque recorra con un galon de combustible sera

Distancia prevista=y(x = 2600) = a+ b× 2600 = 55,89 + (−0,01014)× 2600 = 29,52 millas.

Page 11: Anexo: Estad´ıstica descriptiva bivariante · esta distribuci´on de frecuencias, que es tambi´en univariante, se le denomina distribuci´on condi-cionada. Por ejemplo, los valores

3.5 La recta de regresion simple 11

Hay que mencionar que la recta de regresion de mınimos cuaadrados y = a+ bx esta disenadapara predecir y a partir de x y no debemos usarla para predecir un valor de x dado y. Es decir, siobservamos un valor de y y predecimos el valor de x despejando de la recta de regresion tal quehaciendo x = (y − a) /b ya no estamos usando la mejor recta posible que prediga x a partir dey. No estamos haciendo el mejor uso de nuestros datos. Debemos en ese caso calcular una nuevarecta intercambiando los papeles de x e y. Volviendo al Ejemplo 4, si nuestro interes es encontarla prediccion del peso de un vehıculo si conociesemos la distancia que recorre con un galon decombustible, lo mejor es volver a construir una nueva regresion especıfica para esa prediccion.Ahora la variable explicativa es x =mpg y la variable respuesta es y =weight, y tendremos que

b∗ =cov(x, y)

s2x=−3688,2454,42

= −67,774

a∗ = y − bx = 2672,2− (−67,774)× 28,79 = 4623,4.

Entonces, si sabemos que un vehıculo ha recorrido 10 millas con un galon de combustible, el pesoque podemos predecir para ese vehıculo sera de

Peso previsto=y(x = 10) = a∗ + b∗ × 10 = 4623,4 + (−67,774)× 10 = 3945,7.

3.5.3. Interpretacion de los coeficientes de una regresion simple

La interpretacion de los coeficientes es muy sencilla. A partir de (3.2) puede verse que

dy

dx= b,

por lo que b es la pendiente de la recta (en inges, slope). La interpretacion mas habitual de bes interpretarlo como el incremento que se produce en y cuando x aumenta en una unidad. Esteresultado puede verse del siguiente desarrrollo:

∆y = y(xi + 1)− y(xi) = {a+ b(xi + 1)}− {a+ bxi} = b.

Por ejemplo, en el caso de la regresion anterior en la que se relaciona el peso del coche con suconsumo, se tiene que un peso adicional de una unidad reduce la distancia que puede recorrersecon un galon en 0,01014 millas.El termino constante a es el valor de la recta cuando x = 0, ya que y(0) = a + b × 0 = a (en

ingles, intercept). En muchas ocasiones no tiene mucho interes interpretar esta constante, pues elcaso x = 0 no siempre esta dentro del rango de los datos. Por ejemplo, en el caso de la regresionanterior, un coche de peso 0 no tiene sentido.

3.5.4. Evaluacion de la recta de regresion simple. Analisis de los residuos

¿Como sabemos que la recta de regresion simple es una buena herramienta para predecir y apartir de x? Para contestar adecuadamente deberemos esperar a capıtulos posteriores, donde sedesarrollaran tecnicas estadısticas especıficas para responder a esta pregunta. No obstante, en estetema podemos dar una contestacion aproximada que resulta util.Para considerar que una regresion simple es una buena idea para predecir y a partir de x

necesitamos cumplir dos condiciones. En primer lugar, y como condicion mınima, necesitamos quela relacion entre y y x sea sea verdaderamente lineal. Es decir, la nube de puntos debe seguir unpatron lineal, como sucede en el grafico que se observa en el Ejemplo 4 y no un patron curvilıneo

Page 12: Anexo: Estad´ıstica descriptiva bivariante · esta distribuci´on de frecuencias, que es tambi´en univariante, se le denomina distribuci´on condi-cionada. Por ejemplo, los valores

12 Anexo: Estadıstica descriptiva bivariante

u otro tipo de estructura diferente a una linea recta. En segundo lugar, la nube de puntos debe serlo mas estrecha posible alrededor de la recta de regresion.

La linealidad de la relacion

Respecto a la condicion de linealidad, lo mas facil para comprobarla es hacer representacionesgraficas. En muchos casos un simple grafico de dispersion XY puede decirnos si una lınea rectaes un buen resumen de los datos. Por ejemplo, la figura siguiente muestra la relacion entre lavelocidad del viento (metros/segundo) que sopla en una hora y la energıa eolica generada por unparque eolico (kWh) (parqueeolico1.sf3). En esta figura puede verse que la relacion es no linealcon una forma parecida a una S. Sin embargo el coeficiente de correlacion entre ambas variableses elevado, de 0.96. Este coeficiente es, en este caso, enganoso. No es ninguna medida-resumen deninguna relacion lineal pues no hay relacion lineal entre las variables.

Esta figura tiene en color rojo la recta de mınimos cuadrados, que en este caso es

yi = −5103 + 1983xi.

Segun esta ecuacion de la recta, al aumentar la velocidad del viento en una unidad la energıagenerada por el parque aumentarıa en 1983 unidades. Si la hipotesis de linealidad fuese cierta,esta relacion (1 m/s adicional =1938 unidades de energıa adicionales (kWh)) serıa la misma paratodos los niveles de velocidad de viento. Eso es precisamente el significado del termino ’lineal’. Sinembargo, vemos en el grafico que la realidad es diferente ya que a partir de 12 unidades de velocidad(metros/segundo) al aumentar la velocidad del viento ya no se aumenta la energıa generada, sinoque se mantiene en un nivel constante. Un comentario parecido puede realizarse para velocidadesinferiores a 4 m/s.

Ademas del grafico anterior, se suele emplear el grafico de valores previstos frente avalores observados. En este grafico, en el eje X ponemos las predicciones y, y en el eje Y losvalores reales y. De esta forma representamos los pares de puntos (yi, yi), i = 1, ..., n. En el casoen el que exista relacion lineal, dicha figura debe mostrar una nube de puntos con estructura linealagrupados alrededor de la diagonal. La figuras siguiente muestra a la izquierda el grafico de valoresprevistos frente a observados con los datos del Ejemplo 4, y a la derecha el grafico con los datosde energıa eolica. En esta figura puede verse que los datos relacionados con el consumo de los

Page 13: Anexo: Estad´ıstica descriptiva bivariante · esta distribuci´on de frecuencias, que es tambi´en univariante, se le denomina distribuci´on condi-cionada. Por ejemplo, los valores

3.5 La recta de regresion simple 13

automoviles tienen una mayor relacion lineal que los de la energıa eolica.

Aparte de estos graficos, el grafico que mas se emplea para evaluar la idoneidad de una regresiones el grafico de residuos frente a valores previstos. En este grafico, el eje X representa losvalores previstos y, y el eje Y los residuos e. De esta forma se representan los n pares de puntos(yi, ei). Este grafico ilustra la informacion que tienen los residuos, una vez que a los datos originalesles hemos extraıdo la informacion que viene explicada por la recta de regresion. Si los datos tiene unarelacion lineal, los residuos no deben tener ya ningun tipo de informacion, y deben aparecer comouna nube de puntos dispuestos al azar alrededor de la horizontal. La figura siguiente muestra elgrafico de residuos frente a valores previstos de los datos del consumo de combustible de los cochesy la energıa eolica. Mientras que en el caso de los datos del consumo de combustible el graficomuestra una nube con distribucion aleatoria, en el caso de la energıa eolica se nota claramente lafalta de linealidad. Como la relacion entre la velocidad de viento y la energıa producida es no lineallos residuos reflejan esa falta de linealidad que no ha sido capaz de captar la regresion.

A la hora de interpretar el grafico de residuos frente a valores previstos debemos fijarnos en lapresencia de estructuras en los datos que sean muy claras, como la que aparece en el graficode la derecha de la figura de arriba. La pregunta que debemos hacerlos al mirar este grafico es: ¿sihubiese dispuesto unos puntos al azar sobre el grafico, serıa plausible obtener esa representacion?Si la respuesta es afirmativa, entonces podemos concluir que la hipotesis de linealidad entre x e yes razonable. Si por el contrario pensamos que la nube de los residuos tiene una estructura que noparezca debida al azar, pensaremos que el modelo lineal no es adecuado.En el ejemplo siguiente se muestra mas claramente la utilidad del grafico de residuos frente a

valores previstos. Los datos corresponden a un conjunto de experimentos en los que se hierve aguaa diferentes alturas en la cordillera del Himalaya, y estan extraıdos del texto Weisberg, S (1985).

Page 14: Anexo: Estad´ıstica descriptiva bivariante · esta distribuci´on de frecuencias, que es tambi´en univariante, se le denomina distribuci´on condi-cionada. Por ejemplo, los valores

14 Anexo: Estadıstica descriptiva bivariante

Applied Linear Regression, 2nd edition. John Wiley and Sons, p. 28. Los datos se encuentran enel fichero ebullicionhimalaya.sf3. Este fichero tiene dos variables. La variable Temperatura tiene latemperatura en oC a la que hierve el agua en el experimento, y la variable Presion tiene la presionatmosferica, en atmosferas, a la que se realiza el experimento. A mayor altura menor presionatmosferica (a nivel del mar, la presion es de 1 atmosfera). La Figura 3.1X muestra el grafico dedispersion junto con la recta de mınimos cuadrados que predice la temperatura de ebullicion apartir de la presion atmosferica, ası como el grafico de residuos frente a valores previstos. En estecaso, el grafico de dispersion de la izquierda parece sugerir que la relacion es lineal, sin embargoesta no lo es. El grafico de residuos frente a valores previstos nos muestra una curvatura que nosdice que la relacion real entre ambas variables es no lineal. Esta falta de linealidad no es muyacusada y por eso es mas difıcil de ver en el grafico de dispersion, aunque mirandolo con atenciontambien puede apreciarse. Este ejemplo ilustra la utilidad del grafico de residuos frente a valoresprevistos para evaluar la linealidad entre dos variables.

(a) Presion atmosferica y punto de ebullicion del agua (b) Residuos frente a valores previstos.

Figura 3.1: Resultados de la regresion que explica el punto de ebullicion en funcin de la presion atmosferica.

En este caso concreto de la relacion entre el punto de ebullicion y la presion, puede mejorarseel modelo de regresion si, por ejemplo, buscamos una transformacion no lineal entre las variables.Por ejemplo puede observarse que entre el logaritmo de la presion y la temperatura sı hay unarelacion lineal. Si hacemos la regresion con x = log(Presion) frente a y =Temperatura obtenemosla siguente recta de mınimos cuadrados

y = 99,9 + 26,5× log(Temperatura),

y los graficos de evaluacion, que se muestran en la Figura 3.2 ya resultan bastante mas satisfactorios.

Figura 3.2: Resultados de la regresion que explica el punto de ebullicion en funcion del logaritmo de la presionatmosferica.

Page 15: Anexo: Estad´ıstica descriptiva bivariante · esta distribuci´on de frecuencias, que es tambi´en univariante, se le denomina distribuci´on condi-cionada. Por ejemplo, los valores

3.5 La recta de regresion simple 15

Vemos por tanto que la recta de regresion simple puede utilizarse tambien, con un poco deingenio y experiencia, para modelizar relaciones no lineales. Basta con transformar las variablesobservadas en otras entre las que sı exista una relacion lineal. En el siguiente apartado analizaremoseste tipo de transformaciones para algunos casos sencillos, pero muy frecuente

Bondad del ajuste lineal

Una vez que podemos asumir (tras el analisis de los residuos de la regresion) que la relacionentre x e y es lineal, el siguiente paso es cuantificar como de precisa es la prediccion de y utilizandola recta de regresion simple. Desde un punto de vista grafico, la prediccion que se haga con laregresion simple sera tanto mejor cuanto mas estrecha sea la nube de puntos alrededor de la recta.Es decir, cuanto mas proximos a cero sean los residuos. El siguiente ejemplo ilustra esta idea. Sedesea predecir el recorrido que hara un coche con 1 galon de combustible (variable y =mpg delfichero cardata.sf), y estamos pensando en elegir entre dos variables x alternativas. Una es el pesodel vehıculo (variable weight), pues a mayor peso mayor sera el consumo y menor la distancia querecorrera con una unidad de combustible. El grafico de dispersion de las variables mpg y weightcon la recta de regresion superpuesta se encuentra en la figura de la izquierda. La segunda opciones emplear la aceleracion del vehıculo (variable accel) que mide el tiempo que tarda en alcanzarcierta velocidad. El grafico de dispersion con la recta de regresion para esta segunda opcion esta enla figura de la derecha. Parece que a mayor capacidad de aceleracion, el coche es mas eficiente yconsume menos. ¿Cual de las dos regresiones elegirıamos para predecir mpg? Parece evidente quela variable weight es mejor pues la nube de puntos esta mas proxima a la recta que en el caso dela variable accel.

(a) mpg en funcion de weight (b) mpg en funcion de accel

Esta menor dispersion de la nube de puntos viene cuantificada por el coeficiente de correlaccionentre x e y. Las correlaciones en estos datos son las siguientes

corr(weight,mpg) =-0.83,

corr(accel,mpg) =0.22.

Por tanto, y dado que las relaciones son lineales, la variable weight sera mejor predictor que lavariable accel en el sentido de que los errores que cometamos al predecir con la regresion simpletenderan a ser menores.Aunque el coeficiente de correlacion sea facil de utilizar, vamos a emplear otro coeficiente para

medir la bondad de ajuste de la recta de regresion simple. Este coeficiente se denomina coeficientede determinacion R2. El coeficiente de determinacion se define como

R2 = 1−Pn

i=1 e2iPn

i=1 (yi − y)2. (3.5)

Page 16: Anexo: Estad´ıstica descriptiva bivariante · esta distribuci´on de frecuencias, que es tambi´en univariante, se le denomina distribuci´on condi-cionada. Por ejemplo, los valores

16 Anexo: Estadıstica descriptiva bivariante

Este coeficiente proporciona un valor entre 0 y 1 tal que cuanto mas estrecha sea la lınea de puntosalrededor de la recta de regresion mas proximo sera su valor a 1. En este sentido es bastante similaral coeficiente de correlacion. Se puede demostrar que

R2 = corr(x, y)2.

¿Que utilidad tiene entonces utilizar R2 en lugar de la correlacion para medir la bondad delajuste del a regresion? En primer lugar, la utilidad sera evidente cuando en un capıtulo futurose construyan regresiones con mas de una variable explicativa, pues en ese caso habra variascorrelaciones en juego, una por variable explicativa, y dejaran de ser utiles para comparar modelos.En segundo lugar esta la interpretacion del coeficiente R2. El termino

Pni=1 (yi − y)2 que aparece

en (3.5) cuantifica la dispersion que tienen las observaciones de y. Ademas, como los residuos

tienen media cero podemos escribir quePn

i=1 e2i =

Pni=1 (ei − e)2 , por lo que el termino

Pni=1 e

2i

cuantifica la dispersion que tienen los residuos. Por tanto el coeficiente de determinacion comparala variabilidad inicial de los datos

Pni=1 (yi − y)

2con la que todavıa queda en los residuos,

Pni=1 e

2i

tras extraer de los datos de y laparte que viene explicada por la relacion lineal con x. Cuantomas explicativa sea la regresion menor sera

Pni=1 e

2i con respecto a

Pni=1 (yi − y)2 . Por tanto el

coeficiente de determinacion nos dice que proporcion de la dispersion de la variablerespuesta y viene explicada por la recta de la regresion. En el caso de las dos regresionesque se proponen para explicar mpg se tiene que:

regresion de mpg con weight : R2 = 68,73%,

regresion de mpg con accel : R2 = 5,15%.

Por tanto, el peso del vehıculo es mejor predictor que la aceleracion al explicar el 68.73% de lavariabilidad de la variable mpg frente al 5.15% que explica accel.

3.5.5. Transformaciones para mejorar la linealidad

Si x e y estan relacionadas de forma no lineal, la utilizacion de una regresion lineal paramodelizar dicha relacion no serıa adecuado. Sin embargo, en muchas ocasiones, es facil transformarlas variables en otras x∗ e y∗ tales que entre ellas sı exista una relacion lineal y construir conellas una regresion lineal. Las Figuras 3.1 y 3.2 son un ejemplo de este tipo de variables. En estecaso la relacion entre x =Presion e y =Temperatura no es lineal, y presenta cierta curvatura. Sinembargo, la relacion entre x∗ = log(Presion) e y =Temperatura sı lo es. Lo que consigue estatransformacion es, en cierta forma, enderezar la curva no lineal que siguen los datos. Este efectose puede conseguir de varias maneras. A continuacion vamos a presentar un porcedimiento basadoen transformaciones del tipo x∗ = xc donde c > 1 o c < 1 dependiendo del tipo de transformacionque necesiten los datos. Para explicar esta metodologıa vamos a utilizar la Figura 3.3.En la Figura 3.3 (a) tenemos dos variables que tienen claramente una relacion no lineal. La lınea

roja representarıa la curva que nos gustarıa utilizar para predecir y a partir de x. Lo que vamos ahacer entonces es corregir esa curvatura. Con este fin vamos a aplicar una transformacion a x talque los valores muy altos se reduzcan mucho y los valores mas bajos se reduzcan menos, tal y comose ilustra en la Figura 3.3 (b). Esta compresion creciente a medida que aumenta x se consigue contransformaciones del tipo xc con c < 1. El valor de c puede buscarse probando diferentes valores yanalizando los residuos. Hay que encontrar el valor justo de c. Un valor demasiado pequeno podrıano ser suficiente para corregir la no linealidad, y un valor demasiado alto pede provocar una nolinealidad con la curvatura en direccion opuesta. La transformacion x∗ = log(x), que es la que se

Page 17: Anexo: Estad´ıstica descriptiva bivariante · esta distribuci´on de frecuencias, que es tambi´en univariante, se le denomina distribuci´on condi-cionada. Por ejemplo, los valores

3.5 La recta de regresion simple 17

(a) (b) (c)

Figura 3.3: Transformaciones usando potencias para conseguir linealidad.

ha usado en la Figura 3.2, tambien produce este tipo de compresion creciente con x (obviamente six > 0). En este caso, el tipo de transformacion que se obtiene puede interpretarse como equivalentea la transformacion con c ≈ 0. De esta forma se subsana la discontinuidad que tiene este metodoen c = 0, pues en ese caso se tendrıa que xc = 1 y la transformacion serıa absurda.

Otra opcion para corregir la curvatura es manipulando y en lugar de x. En el caso del ejemplode la Figura 3.3, el grafico muestra que para corregir la curvatura lo que hay que hacer es expandirlos valores de y de tal manera que los valores altos se expandan mucho mas que los bajos, taly como se ilustra en la Figura 3.3 (c). Este tipo de transformaciones se consigue usando c > 1.Hay que tener cuiado con valores de c que sean pares pues si y tiene valores positivos y negativos,la variable transformada carecera de sentido. Este tipo de transformaciones solo funcionara si losdatos tienen cierto rango de variabilidad, de forma que sea observable un comportamiento distintoen los valores altos respecto a los bajos.

La Figura 3.4 muestra tres transformaciones diferentes realizadas sobre la variable x de la Figura3.3 (a), ası como los respectivos graficos de residuos frente a valores previstos de las respectivasregresiones de y con x∗. Las Figuras 3.4 (a.1) y (a.2) utilizan la transformacion x∗ = x0,9. Estatransformacion parece insuficiente para corregir la no linealidad. Las Figuras 3.4 (b.1) y (b.2)utilizan la transformacion x∗ = x0,5, que parece que resuelven el problema de la no linealidad. LasFiguras 3.4 (c.1) y (c.2) utilizan la transformacion x∗ = x0,1 que ya es excesiva, y por eso producede nuevo no linealidad.

La Figura 3.5 muestra un esquema de cual deberıa ser la transformacion que debe realizarsesobre x (x∗ = xc) para conseguir corregir la no linealidad. La lınea punteada simboliza la curvaalrededor de la cual se agruparıan los datos sin transformar. ¿Como deberıa ser la transformacionsi decidimos hacerla sobre la variable y (y∗ = yc)?

Anexo: demostracion de la recta de mınimos cuadrados

Dado un conjunto de n observaciones bidimensionales (y1, x1), ..., (yn, xn), de las variables (y, x)buscamos la recta de regresion simple y = a + bx + e tal que se minimice la funcion de perdidaS(a, b) donde

S(a, b) =nXi=1

e2i =nXi=1

[yi − (a+ bxi)]2.

Page 18: Anexo: Estad´ıstica descriptiva bivariante · esta distribuci´on de frecuencias, que es tambi´en univariante, se le denomina distribuci´on condi-cionada. Por ejemplo, los valores

18 Anexo: Estadıstica descriptiva bivariante

(a.1) (b.1) (c.1)

(a.2) (b.2) (c.2)

Figura 3.4: Graficos xy con recta de regresion (arriba) y grafico de residuos frente a valores previstos (abajo). (a)transformacion x0,9. (b) transformacion x0,5. (c) transformacion x0,1.

A los valores de a y b que minimizan S(a, b) los denotaremos por a y b. Por tanto, la primeraderivada se anulara en dichos valores, es decir

∂S

∂a

¯a=a

= 0,

∂S

∂b

¯b=b

= 0,

Figura 3.5: Transformaciones que, en cada caso, pueden corregir la no linealidad.

Page 19: Anexo: Estad´ıstica descriptiva bivariante · esta distribuci´on de frecuencias, que es tambi´en univariante, se le denomina distribuci´on condi-cionada. Por ejemplo, los valores

3.5 La recta de regresion simple 19

de donde se obtiene que

∂S

∂a

¯a=a

= −2nXi=1

³yi − a− bxi

´= 0, (3.6)

∂S

∂b

¯b=b

= −2nXi=1

³yi − a− bxi

´(xi) = 0. (3.7)

De estas equaciones resulta

nXi=1

yi = na+ bnXi=1

xi

nXi=1

yixi = anXi=1

xi + bnXi=1

x2i

de donde se obtiene que

a =

Pni=1 yin

− b

Pni=1 xin

= y − bx,

b =

Pni=1 (yi − y) (xi − x)Pn

i=1 (xi − x)2=cov(x, y)

s2x.

Ademas de este resultado, de (3.6) puede escribirse que

nXi=1

³yi −

ha+ bxi

i´=

nXi=1

(yi − yi) =nXi=1

ei = 0,

por lo que los residuos de la regresion de mınimos cuadrados tienen media cero.