22
Unidad Temática 3: Estadística Analítica Unidad 9 Correlación y Regresión Lineal Simple

Unidad 9 Correlación y Regresión Lineal Simple · Análisis de Correlación ... la próxima clase. Análisis de Correlación ... Yi Y Xi X R El numerador se denomina suma de productos

Embed Size (px)

Citation preview

Page 1: Unidad 9 Correlación y Regresión Lineal Simple · Análisis de Correlación ... la próxima clase. Análisis de Correlación ... Yi Y Xi X R El numerador se denomina suma de productos

Unidad Temática 3:

Estadística Analítica

Unidad 9

Correlación y Regresión

Lineal Simple

Page 2: Unidad 9 Correlación y Regresión Lineal Simple · Análisis de Correlación ... la próxima clase. Análisis de Correlación ... Yi Y Xi X R El numerador se denomina suma de productos

Análisis de Correlación

➢ Tiene el propósito de medir el grado de asociación

observado entre dos variables cuantitativas continuas o

discretas.

➢Prueba si el valor de correlación pudo haber sido obtenido

únicamente por azar o existe realmente asociación.

➢ No se distingue entre variables. Es más bien un estudio

exploratorio.

➢ No implica necesariamente una relación causa-efecto.

➢ Cuando se analiza una correlación, se debe estar muy

atento para no atribuir equivocadamente una simple

asociación a una relación causa-efecto.

Creado por Karl Pearson en 1920.

Page 3: Unidad 9 Correlación y Regresión Lineal Simple · Análisis de Correlación ... la próxima clase. Análisis de Correlación ... Yi Y Xi X R El numerador se denomina suma de productos

Estadística Analítica

CORRELACIÓN LINEAL SIMPLE

• “Indica la fuerza y la dirección de una relación lineal

proporcional entre dos variables cuantitativas. Es decir, si

los valores de una de ellas varían sistemáticamente con

respecto a los de la otra”.

• Permitiendo expresar si existe una relación funcional

entre dos variables cuantitativas, el tipo de relación

existente y llegar a conocer con que precisión se

relacionan entre sí.

“Los métodos de regresión se usan para determinar la

mejor relación funcional entre las variables” (Ostle, 1970).

REGRESIÓN LINEAL SIMPLE

Page 4: Unidad 9 Correlación y Regresión Lineal Simple · Análisis de Correlación ... la próxima clase. Análisis de Correlación ... Yi Y Xi X R El numerador se denomina suma de productos

Regresión Lineal

OBJETIVOS

Permite determinar si dos variables se asocian entre sí y

en que sentido se da dicha asociación.

Si los valores de una variable pueden ser utilizados con

el objeto de poder predecir los valores de la otra variable.

Con el propósito de cubrir estos objetivos, tendremos

que echar mano a algún tipo de función matemática:

Función Lineal

Correlación Lineal

Page 5: Unidad 9 Correlación y Regresión Lineal Simple · Análisis de Correlación ... la próxima clase. Análisis de Correlación ... Yi Y Xi X R El numerador se denomina suma de productos

Aplicaciones y ejemplos rápidos:

▪ Estimar si existe relación entre el peso corporal y el

perímetro su perímetro torácico de novillos.

▪ Concentración de sustancias tóxicas en la carne y

absorbancia.

▪ Crecimiento de bacterias y factores de crecimiento en

el medio de cultivo.

▪ Actividad de una enzima y pH del medio de cultivo.

▪ Consumo de alimento balanceado y peso corporal en

pollos para carne.

Page 6: Unidad 9 Correlación y Regresión Lineal Simple · Análisis de Correlación ... la próxima clase. Análisis de Correlación ... Yi Y Xi X R El numerador se denomina suma de productos

• Relación entre consumo de alimento balanceado y

peso corporal en pollos.

Tomado: Steel & Torrie, (1992) Cap. 10 .

iXi = Peso

(lb)

Yi =

Consumo

1 4,6 87,1

2 5,1 93,1

3 4,8 89,8

4 4,4 91,4

5 5,9 99,5

6 4,7 92,1

7 5,1 95,5

8 5,2 99,3

9 4,9 93,4

10 5,1 94,4

85

90

95

100

105

4 4,5 5 5,5 6

Eje de Y = Consumo

Eje de X = Peso

Diagrama de dispersión

X

Y

Page 7: Unidad 9 Correlación y Regresión Lineal Simple · Análisis de Correlación ... la próxima clase. Análisis de Correlación ... Yi Y Xi X R El numerador se denomina suma de productos

Análisis de Correlación

➢ Su valor puede variar entre -1 a 1, y el valor cero significa

ausencia total de correlación.

➢ El signo (+) o (-), indica si existe una relación directa o

inversamente proporcional, respectivamente.

➢ El coeficiente de correlación se calcula como el cociente

de la covariancia entre las variables estudiadas, sobre la raíz

cuadrada del producto de las variancias de X e Y.

Page 8: Unidad 9 Correlación y Regresión Lineal Simple · Análisis de Correlación ... la próxima clase. Análisis de Correlación ... Yi Y Xi X R El numerador se denomina suma de productos

ANÁLISIS DE REGRESIÓN

Reconocida la dispersión que se configura en los datos

observados, busca encontrar algún modelo o función

que se ajuste a la variación observada. Para ello

podemos echar mano al: ajuste por función lineal,

cuadrática, logarítmica, etc.

Con los datos que tienen un comportamiento aleatorio

como los observados en el ejemplo del consumo de los

pollos, estimaremos un modelo de ajuste por el Método

de Regresión Lineal o ajuste de curvas, para ello

utilizaremos el Método de los Mínimos Cuadrados en

la próxima clase.

Page 9: Unidad 9 Correlación y Regresión Lineal Simple · Análisis de Correlación ... la próxima clase. Análisis de Correlación ... Yi Y Xi X R El numerador se denomina suma de productos

Análisis de Correlación

➢ El coeficiente de correlación de Pearson lo designaremos

con la letra “r” o “R” y queda configurado en la siguiente

ecuación:

( )( )

( ) ( )

−−

−−=

22XXiYYi

XXiYYiR

➢ El numerador se denomina suma de productos cruzados y

corresponde a la covarianza de ambas variables.

➢ El denominador corresponde a la suma de cuadrados de la

varianza de las variables de manera independiente.

Page 10: Unidad 9 Correlación y Regresión Lineal Simple · Análisis de Correlación ... la próxima clase. Análisis de Correlación ... Yi Y Xi X R El numerador se denomina suma de productos

CALCULOS

Eje de Y = Consumo de balanceado

Eje de X = Peso corporal pollos

i Peso (X) (Xi – X) (Xi – X)2 Consumo (Y) (Yi – Y) (Yi – Y) 2 S(xy)

1 4,6 -0,38 0,1444 87,1 -6,48 41,99 2,4624

2 5,1 0,12 0,0144 93,1 -0,48 0,2304 -0,058

3 4,8 -0,18 0,0324 89,8 -3,78 14,288 0,6804

4 4,4 -0,58 0,3364 91,4 -2,18 4,7524 1,2644

5 5,9 0,92 0,8464 99,5 5,92 35,046 5,4464

6 4,7 -0,28 0,0784 92,1 -1,48 2,1904 0,4144

7 5,1 0,12 0,0144 95,5 1,92 3,6864 0,2304

8 5,2 0,22 0,0484 99,3 5,72 32,718 1,2584

9 4,9 -0,08 0,0064 93,4 -0,18 0,0324 0,0144

10 5,1 0,12 0,0144 94,4 0,82 0,6724 0,0984

n = 10 X = 4,98 0 1,536 Y = 93,56 0 135,61 11,812

Page 11: Unidad 9 Correlación y Regresión Lineal Simple · Análisis de Correlación ... la próxima clase. Análisis de Correlación ... Yi Y Xi X R El numerador se denomina suma de productos

Análisis de Correlación

( )( )818,0

536,161,135

812,11==R

➢ Remplazando valores tendremos:

➢ ¿Cuál es el significado de este valor obtenido?

Existe una fuerte relación lineal positiva entre ambas variables,

es decir, cuando los valores de una variable aumentan también

lo hacen los de la otra.

Page 12: Unidad 9 Correlación y Regresión Lineal Simple · Análisis de Correlación ... la próxima clase. Análisis de Correlación ... Yi Y Xi X R El numerador se denomina suma de productos

Análisis de Correlación

( )( )

2)-(n2

t

2

1

0=

−=

n

R

rt

➢ Prueba de hipótesis para “r”:

Ho) R = 0

H1) R ǂ 0

➢ Conclusión: Si rechazo la Ho) concluimos que ambas

variables se correlacionan linealmente entre sí, ya que el

coeficiente de “r” es distinto de cero.

Page 13: Unidad 9 Correlación y Regresión Lineal Simple · Análisis de Correlación ... la próxima clase. Análisis de Correlación ... Yi Y Xi X R El numerador se denomina suma de productos
Page 14: Unidad 9 Correlación y Regresión Lineal Simple · Análisis de Correlación ... la próxima clase. Análisis de Correlación ... Yi Y Xi X R El numerador se denomina suma de productos
Page 15: Unidad 9 Correlación y Regresión Lineal Simple · Análisis de Correlación ... la próxima clase. Análisis de Correlación ... Yi Y Xi X R El numerador se denomina suma de productos
Page 16: Unidad 9 Correlación y Regresión Lineal Simple · Análisis de Correlación ... la próxima clase. Análisis de Correlación ... Yi Y Xi X R El numerador se denomina suma de productos

MÉTODO DE AJUSTE DE LA RELACIÓN

▪ Reconocida la dispersión podemos buscar algún

modelo o función que permita explicar la variación

observada.

▪ El ajuste puede se por función lineal, cuadrática,

logarítmica, etc.

▪ Con los datos que tienen un comportamiento aleatorio

como los observados en el ejemplo del consumo de

los pollos, estimaremos un modelo de ajuste por el

Método de Regresión Lineal o ajuste de curvas,

para ello utilizaremos el Método de los Mínimos

Cuadrados.

▪ Debemos considerar una variable como independiente

y a la otra como dependiente o respuesta.

Page 17: Unidad 9 Correlación y Regresión Lineal Simple · Análisis de Correlación ... la próxima clase. Análisis de Correlación ... Yi Y Xi X R El numerador se denomina suma de productos

MÉTODO DE LOS MÍNIMOS CUADRADOS

▪ “Minimiza la suma de los cuadrados de las desviaciones de

los puntos observados con respecto a la recta”.

▪ …en la Recta ajustada, Y = a + bX, donde “a” y “b” se

denominan coeficientes de regresión, la recta se llama

recta de regresión, y la función es la ecuación de

regresión.

Ŷ = β0 + β1X

▪ Para estimar los coeficientes de regresión, echaremos

mano a la suma de los productos cruzados de las

desviaciones de las observaciones respecto de sus

medias.

Page 18: Unidad 9 Correlación y Regresión Lineal Simple · Análisis de Correlación ... la próxima clase. Análisis de Correlación ... Yi Y Xi X R El numerador se denomina suma de productos

CALCULO DE LOS COEFICIENTES

=21

x

xy

▪ Cálculo del coeficiente , pendiente de la recta (1):

−−=n

YYXXxy ))((

▪ Cálculo de la suma de productos (covariancia):

▪ Cálculo de la suma de cuadrados de la variable Xi, o

variancia de X:

−=n

XXx 22 )(

Page 19: Unidad 9 Correlación y Regresión Lineal Simple · Análisis de Correlación ... la próxima clase. Análisis de Correlación ... Yi Y Xi X R El numerador se denomina suma de productos

CALCULOS

Eje de Y = Consumo de balanceado

Eje de X = Peso corporal pollos

i Peso (X) (Xi – X) (Xi – X)2 Consumo (Y) (Yi – Y) (Yi – Y) 2 S(xy)

1 4,6 -0,38 0,1444 87,1 -6,48 41,99 2,4624

2 5,1 0,12 0,0144 93,1 -0,48 0,2304 -0,058

3 4,8 -0,18 0,0324 89,8 -3,78 14,288 0,6804

4 4,4 -0,58 0,3364 91,4 -2,18 4,7524 1,2644

5 5,9 0,92 0,8464 99,5 5,92 35,046 5,4464

6 4,7 -0,28 0,0784 92,1 -1,48 2,1904 0,4144

7 5,1 0,12 0,0144 95,5 1,92 3,6864 0,2304

8 5,2 0,22 0,0484 99,3 5,72 32,718 1,2584

9 4,9 -0,08 0,0064 93,4 -0,18 0,0324 0,0144

10 5,1 0,12 0,0144 94,4 0,82 0,6724 0,0984

n = 10 X = 4,98 0 1,536 Y = 93,56 0 135,61 11,812

( )( )818,0

536,161,135

812,11==R

Page 20: Unidad 9 Correlación y Regresión Lineal Simple · Análisis de Correlación ... la próxima clase. Análisis de Correlación ... Yi Y Xi X R El numerador se denomina suma de productos

CALCULO DE LOS COEFICIENTES

69,7536,1

812,111 ==

▪ Cálculo del coeficiente , pendiente de la recta:

▪ Cálculo de la ordenada al origen:

XY 10 += 01 =− XY

XY 10 −= ( )

26,55

98,4*69,756,93

0

0

=

−=

Page 21: Unidad 9 Correlación y Regresión Lineal Simple · Análisis de Correlación ... la próxima clase. Análisis de Correlación ... Yi Y Xi X R El numerador se denomina suma de productos

• Tablas: Cálculos Recta de regresión por Y-estimado

iPeso

Xi

Consumo

(lbs) YiŶ

1 4,6 87,1 90,634

2 5,1 93,1 94,479

3 4,8 89,8 92,172

4 4,4 91,4 89,096

5 5,9 99,5 100,631

6 4,7 92,1 91,403

7 5,1 95,5 94,479

8 5,2 99,3 95,248

9 4,9 93,4 92,941

10 5,1 94,4 94,479

n = 10 X = 4,98 Y = 93,56

iXY 10ˆ +=

iXY 69,726,55ˆ +=

Page 22: Unidad 9 Correlación y Regresión Lineal Simple · Análisis de Correlación ... la próxima clase. Análisis de Correlación ... Yi Y Xi X R El numerador se denomina suma de productos

• Gráfico: Diagrama de dispersión

85

90

95

100

105

4 4,5 5 5,5 6

85

90

95

100

105

4 4,5 5 5,5 6

Ŷ = 55,26 + 7,69X

Y = a + bX Ŷ = 0 + 1 X

Modelo lineal ajustado

Recta de regresión: es una

línea recta que pasa a

través de los puntos que

minimiza la suma de los

cuadrados de las diferencias

entre los datos reales y los

puntos ajustados.