38
CORRELACION Y REGRESION LINEAL: Introducción Mario Briones L. MV, MSc

CORRELACION Y REGRESION LINEAL: Introducción Mario Briones L. MV, MSc

Embed Size (px)

Citation preview

Page 1: CORRELACION Y REGRESION LINEAL: Introducción Mario Briones L. MV, MSc

CORRELACION Y REGRESION LINEAL:

Introducción

Mario Briones L.MV, MSc

Page 2: CORRELACION Y REGRESION LINEAL: Introducción Mario Briones L. MV, MSc

Correlación lineal de Pearson. Medida de la estrechez de la

asociación entre dos variables cuantitativas.

Asociación: fluctuación en conjunto de dos variables

Page 3: CORRELACION Y REGRESION LINEAL: Introducción Mario Briones L. MV, MSc

Correlación lineal de Pearson: Muchas veces en que se dispone de

datos en pares, se desea conocer si ambas variables está relacionadas o son independientes

Page 4: CORRELACION Y REGRESION LINEAL: Introducción Mario Briones L. MV, MSc

Considere los siguientes datos: Valores de pluviometría para once localidades a

diferente altura sobre el nivel del mar:4 1162 6345 844 4306 1008 5737 956 4388 825 4749 899 40910 801 50411 1186 708

Page 5: CORRELACION Y REGRESION LINEAL: Introducción Mario Briones L. MV, MSc

Gráfico de la asociación

300

350

400

450

500

550

600

650

700

750

700 800 900 1000 1100 1200 1300

altura sobre el nivel del mar (mts)

plu

vio

me

tría

(m

m)

Promedio de X= 959.2 mts

Promedio de Y= 530 mts

Page 6: CORRELACION Y REGRESION LINEAL: Introducción Mario Briones L. MV, MSc

COVARIANZA: Medida de la variación en conjunto de dos variables:

yi

n

jxjXY yx

n

1)( 1

1cov

1cov )(

nn

YXYX ij

ii

XY

CONCEPTO:

FORMULA DE CALCULO:

Donde n es el número de pares de valores X Y

Page 7: CORRELACION Y REGRESION LINEAL: Introducción Mario Briones L. MV, MSc

En el ejemplo:

42.1307910

11582910551

16380

XYCOV

Atención! La función COVAR de Excel divide por n...

Page 8: CORRELACION Y REGRESION LINEAL: Introducción Mario Briones L. MV, MSc

Covarianza en el ejemplo: Cov(XY)= 13.079,41

El signo positivo indica que valores por sobre el promedio de X tienden a estar asociados con valores por sobre el promedio de Y

Valores negativos indican que valores por sobre el promedio de X tienden a estar asociados con valores por debajo del promedio de Y

Page 9: CORRELACION Y REGRESION LINEAL: Introducción Mario Briones L. MV, MSc

Estandarización de la medición Pearson, matemático Inglés,

desarrolló un índice, que divide la covarianza por el producto de las desviaciones estándares de X y de Y

YX

XYCovrho

)()(

YX

XY

ss

Covr )(

En la población En la muestra

Page 10: CORRELACION Y REGRESION LINEAL: Introducción Mario Briones L. MV, MSc

Correlación lineal de Pearson: El índice r, fluctúa entre –1 y +1 Si la fluctuación en conjunto es

estrecha, el valor de r se acerca a –1 o +1.

Si la fluctuación en conjunto es baja, el valor de r se acerca a cero.

Page 11: CORRELACION Y REGRESION LINEAL: Introducción Mario Briones L. MV, MSc

Coeficiente de correlación de Pearson en el ejemplo:

YX

XY

ss

Covr )(

856.04.1039.147

42.13079

r

Page 12: CORRELACION Y REGRESION LINEAL: Introducción Mario Briones L. MV, MSc

Es la correlación observada diferente de cero? (H0??)

11 2

Nr

rt

XY

XY

11 2

Nr

rz

XY

XY

N< 30 N> 30

N es la cantidad de pares XY

Page 13: CORRELACION Y REGRESION LINEAL: Introducción Mario Briones L. MV, MSc

Es la correlación observada diferente de cero, en el ejemplo?

25.5163.0856.0

10733.01

856.0

t

t

t

En la tabla de t,con alfa= 0.05 (dos colas)y 10 grados de libertad(n-1), el valor críticoes 2.22

Por lo tanto se puederechazar H0 respectodel valor poblacional derho:Hay una asociación significativaentre la altura sobre el nivel delmar y la cantidad de precipitación(P<0.05) (en la población)

Page 14: CORRELACION Y REGRESION LINEAL: Introducción Mario Briones L. MV, MSc

0.01

0.959

0.0014 0.9 0.95 0.99 0.999

N 0.1 0.05

0.875

0.9916 0.729 0.811 0.917 0.9745 0.805 0.878

0.798

0.9518 0.621 0.707 0.834 0.9257 0.669 0.754

0.735

0.89810 0.549 0.632 0.765 0.8729 0.582 0.666

0.684

0.84712 0.497 0.576 0.708 0.82311 0.521 0.602

0.641

0.80114 0.458 0.532 0.661 0.7813 0.476 0.553

0.606

0.7616 0.426 0.497 0.623 0.74215 0.441 0.514

0.575

0.72518 0.4 0.468 0.59 0.70817 0.412 0.482

0.549

0.69320 0.378 0.444 0.561 0.67919 0.389 0.456

0.526

0.66522 0.36 0.423 0.537 0.65221 0.369 0.433

0.505

0.6424 0.344 0.404 0.515 0.62923 0.352 0.413

0.487

0.61826 0.33 0.388 0.496 0.60725 0.337 0.396

0.471

0.59728 0.317 0.374 0.479 0.58827 0.323 0.381

0.43

0.57930 0.306 0.361 0.463 0.5729 0.311 0.367

0.38

0.53240 0.264 0.312 0.403 0.50135 0.283 0.334

0.33

0.47450 0.235 0.279 0.361 0.45145 0.248 0.294

0.286

0.41470 0.198 0.235 0.306 0.38560 0.214 0.254

0.256

0.36190 0.174 0.207 0.27 0.34180 0.185 0.22

0.324100 0.165 0.197

alfa

Otra opción es compararel valor de r calculadocon el valor de r de la tablaadjunta.Si el valor de r calculadoes mayor que el r delnúmero de grados delibertad de la correlación

(n-1)=10

valor crítico= 0.632

Page 15: CORRELACION Y REGRESION LINEAL: Introducción Mario Briones L. MV, MSc

Transformación de Fisher del coeficiente de correlación

rr

zrxy 11

ln5.0

Z tiene distribución aproximadamente normal, conmedia y error estándar:

5.0)3(1

N

ee

Page 16: CORRELACION Y REGRESION LINEAL: Introducción Mario Briones L. MV, MSc

Transformación de Fisher en el ejemplo:

275.1

55.25.0

144.856.1

ln5.0

856.01856.01

ln5.0

rxyz

Page 17: CORRELACION Y REGRESION LINEAL: Introducción Mario Briones L. MV, MSc

Intervalo de confianza del coeficiente de correlación

3-N1

)( colas dos Pzzrxy

Para obtener el intervalo de confianza en “unidadesde correlación” se transforman de modo inverso usandoel mismo método de r a z

En INTERNET:http://faculty.vassar.edu/lowry/rho.html?

Page 18: CORRELACION Y REGRESION LINEAL: Introducción Mario Briones L. MV, MSc

Intervalo de confianza en el ejemplo:

653.0275.1

1111.096.1275.1

3-111

96.1275.1

Según la página de Internet, el intervalo deconfianza de 95% para r=0.856límite inferior=0.527límite superior=0.961

Page 19: CORRELACION Y REGRESION LINEAL: Introducción Mario Briones L. MV, MSc

Comparación de coeficientes de correlación

31

31

21

21

nn

zzz rxyrxy

Se utilizan los coeficientes transformados

Page 20: CORRELACION Y REGRESION LINEAL: Introducción Mario Briones L. MV, MSc

Correlación entre las líneas eléctricas y el cáncer Epidemiólogos del Instituto

Karolinska de Suecia investigaron durante 25 años a 500.000 personas que vivían a menos de 300 metros de una línea eléctrica de alto voltaje.

Observaron que los niños tenían mayor incidencia de leucemia.

Page 21: CORRELACION Y REGRESION LINEAL: Introducción Mario Briones L. MV, MSc

Correlación entre las líneas eléctricas y el cáncer Los hallazgos descritos obligaron al

gobierno sueco a considerar reglamentos que reducirían la construcción de casas cercanas a las líneas eléctricas de alto voltaje.

Page 22: CORRELACION Y REGRESION LINEAL: Introducción Mario Briones L. MV, MSc

Correlación entre las líneas eléctricas y el cáncer En un artículo acerca del estudio, la

revista Time informó que “aunque las investigaciones no demuestran una relación de causa y efecto, sí indican una inequívoca correlación entre el grado de exposición y el riesgo de leucemia infantil”.

Page 23: CORRELACION Y REGRESION LINEAL: Introducción Mario Briones L. MV, MSc

Errores comunes respecto a la correlación Se debe tener cuidado de evitar

concluir que la correlación implica causalidad Variables ocultas

No utilizar tasas o promedios Pérdida de variación entre individuos

Supuesto de linearidad de la relación

Page 24: CORRELACION Y REGRESION LINEAL: Introducción Mario Briones L. MV, MSc

Correlación y regresión lineal: Si existe una conexión biológica (o

de otro tipo) entre las variables X e Y, entonces puede formularse un modelo lineal que represente esta asociación.

El modelo se basa en la covarianza y en su forma más sencilla es una línea recta (Y= a + bX)

Page 25: CORRELACION Y REGRESION LINEAL: Introducción Mario Briones L. MV, MSc

Ejemplo: Rendimiento promedio de plantas de soya (gr/planta) obtenidos en respuesta a los niveles indicados de exposición al ozono en la la fase de crecimiento.

X Yozono (ppm) rendimiento (gr/pl)

0.02 242 0.07 237 0.11 231 0.15 201

Xi= 0.35 Yi= 911 X= 0.0875 Y= 227.75X2

i= 0.0399 Y2i= 208495

XiYi= 76.99

Page 26: CORRELACION Y REGRESION LINEAL: Introducción Mario Briones L. MV, MSc

MODELO

Asumiendo una relación lineal entre el rendimiento y el nivel del ozono, el modelo establece que la media verdadera de la variable dependiente cambia a una tasa constante en la medida que la variable dependiente aumenta o disminuye.

La relación funcional entre la media verdadera de Yi, E(Yi) y Xi es la ecuación de la línea recta:

Page 27: CORRELACION Y REGRESION LINEAL: Introducción Mario Briones L. MV, MSc

MODELO

Donde = intercepto (valor de E(Y)cuando X es

igual a cero = pendiente de la línea (tasa de cambio

de E(Y) ante un cambio unitario en X.

)()( ii XYE

Page 28: CORRELACION Y REGRESION LINEAL: Introducción Mario Briones L. MV, MSc

SUPUESTOS

Las observaciones de la variable dependiente Yi se asumen como observaciones aleatorias tomadas de poblaciones de variables aleatorias donde la media de cada población está dada por E(Yi).

La desviación de una observación Yi desde la media de su población, E(Yi) se considera añadiendo un término de error aleatorio i para dar el siguiente modelo:

Page 29: CORRELACION Y REGRESION LINEAL: Introducción Mario Briones L. MV, MSc

SUPUESTOS

El subíndice indica cada unidad de observación en particular, i= 1, 2, …n. Los Xi son las n ésimas observaciones de la variable dependiente, que se supone son tomadas sin error.

Es decir, son constantes conocidas; los Yi y los Xi son observaciones pareadas, tomadas en cada unidad observacional.

iii XY

Page 30: CORRELACION Y REGRESION LINEAL: Introducción Mario Briones L. MV, MSc

Rendimiento de soya frente a diferentes concentraciones de ozono

170

180

190

200

210

220

230

240

250

0 0.05 0.1 0.15 0.2

concentración de ozono (ppm)

ren

dim

ien

to s

oya

(g

r/p

lan

ta)

Page 31: CORRELACION Y REGRESION LINEAL: Introducción Mario Briones L. MV, MSc

ESTIMACION DE MINIMOS CUADRADOS

Los parámetros en el modelo son y , a ser estimados desde los datos (muestra). Si no existiese error aleatorio en Yi, cualquier par de puntos podría ser utilizado para resolver los valores de los parámetros.

La variación aleatoria de Y, sin embargo, hace que cada par de valores de resultados diferentes (Todos los estimadores serían idénticos sólo si los datos observados cayeran exactamente sobre una línea recta.)

Page 32: CORRELACION Y REGRESION LINEAL: Introducción Mario Briones L. MV, MSc

ESTIMACION DE MINIMOS CUADRADOS

Por lo tanto, el método de resolución debe combinar toda la información para dar una sola solución que sea la “mejor” en base a algún

criterio. El procedimiento de estimación de mínimos

cuadrados utiliza el criterio de que la solución debe dar la suma más pequeña posible para las desviaciones al cuadrado desde los valores observados de Yi hasta sus medias verdaderas dadas por la solución.

Page 33: CORRELACION Y REGRESION LINEAL: Introducción Mario Briones L. MV, MSc

ESTIMACION DE MINIMOS CUADRADOS

Sean b y a los estimadores numéricos de los parámetros y , respectivamente, y sea

el promedio estimado de Y para cada Xi, i= 1, 2,…, n.

Se debe observar que Yi es obtenida sustituyendo los parámetros en la forma funcional del modelo que relaciona E(Yi) con Xi, dado por la ecuación de la recta.

ii bXaY ˆ

Page 34: CORRELACION Y REGRESION LINEAL: Introducción Mario Briones L. MV, MSc

El principio de los mínimos cuadrados escoge valores de a y bque minimizan la suma de cuadrados de los residuales, SC(Res):

Donde es el valor residual observado para la iésima observación. La suma indicada por es sobre todos losvalores del conjunto como lo indican los índices i= 1 hasta n

Los estimadores de b y a se obtienen usando cálculo para encontrar los valores que minimizan SC(Res). Las derivadas deSC(Res) con respecto a b y a son definidas iguales a cero.

2)(

1

2)( )ˆ(

iRES

n

iiiRES

eSC

YYSC

)ˆ( iii YYe

Page 35: CORRELACION Y REGRESION LINEAL: Introducción Mario Briones L. MV, MSc

Las ecuaciones normales son:

n(a) + (Xi)b= Yi

(Xi)a + (X2i)b= XiYi

Resolviendo las ecuaciones simultáneamente para a y b, da losestimadores para y :

(Xi-X)(Yi-Y) xiyi

b= = (Xi-X)2 x2

i

a= Y - bX

Page 36: CORRELACION Y REGRESION LINEAL: Introducción Mario Briones L. MV, MSc

Para facilidad de cálculo:

(Xi)2

x2i= X2

i - n (Xi)(Yi)xiyi= XiYi - n

Lo que da la siguiente fórmula de cálculo para la pendiente:

n

XX

n

YXYX

bi

i

iiii

22 )(

))((

Page 37: CORRELACION Y REGRESION LINEAL: Introducción Mario Briones L. MV, MSc

Cálculo de la pendiente (b)

X Yozono (ppm) rendimiento (gr/pl)

0.02 242 0.07 237 0.11 231 0.15 201

0399.0

0875.0

35.0

2i

i

X

X

X

208495

75.227

911

2i

i

Y

Y

Y

99.76iiYX

53.293

4)35.0(

0399.0

4)911)(35.0(

99.76

2

b

n

XX

n

YXYX

bi

i

iiii

22 )(

))((

Page 38: CORRELACION Y REGRESION LINEAL: Introducción Mario Briones L. MV, MSc

Cálculo de la constante (a)y ecuación:

XbYa

a= 227.75 - (-293.531)(0.08875)= 253.434

iXY 5.2934.253ˆ

La ecuación de mínimo cuadrado que caracteriza el efecto del ozonosobre el rendimiento promedio de la soya en este estudio, asumiendoque el modelo lineal es correcto es: