View
212
Download
0
Category
Preview:
Citation preview
Objetivos de la Lección
• Conocer el significado de la regresión lineal
• Determinar la línea de regresión cuando hay
correlación lineal
• Predecir un valor de y basado en un valor de x
dado, cuando hay variables correlacionadas
• Determinar el error de predicción en una
regresión
Correlación y Predicción
• Predicción es el proceso de estimación de valores de una variable y (variable de criterio) basado en el conocimiento de otra variable x (variable predictora).
• Cuando hay correlación entre dos variables x, y se puede predecir el valor que asume la y basado en el valor que tiene x.
• Ejemplo: Si las variables creatividad (y) y razonamiento lógico (x) están relacionadas, unoquisiera saber cuál es el mejor estimado de la medida de creatividad que está relacionado con unapuntuación específica de razonamiento lógico.
Línea de Regresión
• Cuando hay correlación entre dos variables, en
una gráfica de puntos (“scatterplot”) los puntos
tienden a estar alrededor de una línea recta.
• Si podemos dibujar la línea recta, ésta
representaría, en promedio, cómo el cambio en
una variable x está asociada a otra variable y.
• Esta línea recta se llama la línea de regresión.
• Cuando usamos la variable x para predecir la
variable y, la línea se llama la regresión de y
en x.
Correlación y Relación de
Causalidad (Causa-Efecto)
• El mero hecho de que dos variables x, y estén asociadas no implica que los cambios en xcausará cambios en y.
• Ejemplo: Una manzana al día mantiene al médico alejado.– Esta correlación negativa se fundamenta en el
número de manzanas consumidas anualmente y el número de visitas anuales al médico.
– Esto no implica que si una persona tiene muchas visitas al médico se debe a que comió pocas manzanas. Quizás se deba a otros factores tales como accidentes automovilísticos, aún comiendo la manzana mientras guiaba.
Correlación y Relación de
Causa-Efecto
• Hay variables en las cuales el cambio no se
puede atribuir al cambio en la otra variable.
• Ejemplo: Relación positiva entre la ejecución en
una tarea física y la edad cronológica.
– Esto no nos permite argumentar que la edad
cronológica es afectada por la ejecución en la tarea
física.
– La edad cronológica solo puede ser afectada por el
paso del tiempo desde el nacimiento del sujeto.
Correlación y Relación de
Causa-Efecto
• Hay combinación de variables que están altamente
correlacionadas, y en esos casos, una de las
variables es una predictora precisa (con precisión) de
la otra.
• Pero, predicción precisa no necesariamente implica
que la variable predictora es la causa de la otra
variable (variable de criterio).
• Por tanto, no se debe confundir correlación con
relación de causa y efecto. Para establecer relaciones
de causa y efecto se requieren otras medidas en otros
contextos de investigación.
Proceso de predecir
Dos pasos:
1. Determinar la línea de regresión. (Determinar
la ecuación de la recta.)
– Como la relación que estudiamos es correlación
lineal entre dos variables, la línea de regresión es
una ecuación lineal en dos variables.
2. Predecir una valor específico de la variable y
dado cierto valor de la variable x.
– Sustituyendo el valor de x en la ecuación que
representa la línea de regresión se obtiene el valor
de y.
Línea de Regresión
abxy
Cuando x = 0
y Puntuación que se predice
b = Pendiente de la recta (inclinación respecto a eje de x)
a = Intercepto en y de la recta
12
12
xx
yybFórmula de Pendiente:
Línea de regresión
• Ejemplo: (Figura 6.1, página 123 del libro de Hinkle)
Gráfica de: y = 0.5x + 2
0 1 2 3 4 5
1
2
3
4
5
0
Ver partes de la
ecuación y su
relación con la
gráfica.
Determinación de la línea de
regresión
• ¿Cómo se ajusta la línea de regresión en una “scatterplot”? (Ver Figura 6.2 en pág. 126)
• Se ajusta determinando primero para cadapunto:
• e se conoce como el error de predicción.
• Para ajustar la línea de regresión, se determina e y luego se usa el método de los cuadrados mínimos.
)ˆ( yye
Determinación de la línea de
regresión
• El método de los cuadrados mínimos ajusta la línea de tal manera que la suma de los cuadrados de las distancias de los puntos a la línea es un mínimo. (Ver Figura 6.3 en pág. 126)
• Esto es similar al concepto de desviación estándar de la muestra.
• Los cuadrados mínimos se determinan con la siguiente fórmula:
2yy
Coeficiente de regresión y
Constante de regresión
• Coeficiente de regresión b:
ó
• Constante de regresión a:
ó
abxy
22 xxn
yxxynb
x
y
s
srb
n
xbya
Pendiente de la recta
Intercepto en y de la recta
xbya
Ejemplo 1:
Est. Punt Raz Log (x) Punt Creat (y) x2 y2 xy
1 15 12 225 144 180
2 10 13 100 169 130
3 7 9 49 81 63
4 18 18 324 324 324
5 5 7 25 49 35
6 10 9 100 81 90
7 7 14 49 196 98
8 17 16 289 256 272
9 15 10 225 100 150
10 9 12 81 144 108
11 8 7 64 49 56
12 15 13 225 169 195
13 11 14 121 196 154
14 17 19 289 361 323
15 8 10 64 100 80
16 11 16 121 256 176
17 12 12 144 144 144
18 13 16 169 256 208
19 18 19 324 361 342
20 7 11 49 121 77
Total 233 257 3037 3557 3205
12.4
65.11
xs
x
66.3
85.12
ys
y
74.0
16.11
r
sxy
Datos de la Tabla 6.1,
pág. 125, Libro de
Hinkle
Ejercicio 1
• Usa los datos del ejemplo 1 para predecir la puntuación
de creatividad de un estudiante que tiene una
puntuación de razonamiento lógico de 12.
• Hay que calcular tres cosas:
– Coeficiente de regresión:
ó
– Constante de regresión:
ó
– Ecuación lineal:
22 xxn
yxxynb
n
xbya
abxy
x
y
s
srb
xbya
Veamos cómo se hace
en las otras pantallas
Coeficiente de Regresión
ó también se puede hallar:
65.0233303720
2572333205202
b
x
y
s
srb
22 xxn
yxxynb
65.012.4
66.374.0b
Primero, calculamos el coeficiente de regresión:
Constante de Regresión
ó también se puede hallar:
n
xbya 28.5
20
23365.0257a
xbya 28.565.1165.085.12a
Segundo, calculamos la constante de regresión:
Ecuación de Regresión
Finalmente, podemos predecir la puntuación de
creatividad de un estudiante que tiene una
puntuación de razonamiento lógico de 12.
abxy
28.565.0ˆ xy
08.13
28.51265.0y
Tercero, determinamos la ecuación de regresión:
Introducción al Ejercicio 2
• Se pueden predecir valores estandarizados de y
usando puntuaciones estándarizadas de x
• Este proceso ayuda cuando se va a determinar
correlación múltiple y regresión lineal múltiple (Cap. 18)
• La correlación múltiple se utiliza cuando se desea
determinar la relación entre la variable de criterio y y
múltiples variables predictoras xi (1 ≤ i ≤ k; k ≥ 2)
Introducción al Ejercicio 2
• Para realizar esta predicción se utiliza la siguiente fórmula:
• zx es la puntuación estándarizada de x
• r es el índice de correlación de Pearson de las variables x, y
• es la puntuación estándarizada de y
• A continuación se presenta un ejemplo de cómo se realiza
esta predicción.
xy zrz ˆ
yz ˆ
Si se desea ver de dónde viene la fórmula,
véase las últimas dos transparencias o haz
clic aquí.
Ejemplo 2:
Est. Punt Raz Log (x) Punt Creat (y) x2 y2 xy
1 15 12 225 144 180
2 10 13 100 169 130
3 7 9 49 81 63
4 18 18 324 324 324
5 5 7 25 49 35
6 10 9 100 81 90
7 7 14 49 196 98
8 17 16 289 256 272
9 15 10 225 100 150
10 9 12 81 144 108
11 8 7 64 49 56
12 15 13 225 169 195
13 11 14 121 196 154
14 17 19 289 361 323
15 8 10 64 100 80
16 11 16 121 256 176
17 12 12 144 144 144
18 13 16 169 256 208
19 18 19 324 361 342
20 7 11 49 121 77
Total 233 257 3037 3557 3205
12.4
65.11
xs
x
66.3
85.12
ys
y
74.0
16.11
r
sxy
Datos del Ejemplo 1
anterior.
Ejercicio 2
• Usando los datos del Ejercicio 1 anterior, predice el valor
estandarizado de y usando la puntuación estándarizada de x
del sujeto 1.
• El sujeto 1 tuvo una puntuación x = 15. Primero hallamos la
puntuación estandarizada de este valor de x:
• Ahora, se puede sustituir la puntuación estandarizada de z y el
valor que corresponde a r (r = 0.74) en la ecuación para hallar
la puntuación estandarizada de y:
60.0)81.0)(74.0(ˆ xy zrz
81.012.4
65.1115
x
xs
xxz
Error de Predicción
• Como se presentó antes, si la correlación lineal entre dos
variables x,y es perfecta, las puntuaciones en el diagrama de
scatterplot caerán en una línea recta.
• Si hay correlación, pero esta no es perfecta, las puntuaciones
caerán alrededor de la línea recta.
• Para ajustar las puntuaciones se usa el método de los
cuadrados mínimos. La aplicación de este método se conoce
como el error de predicción.
• El error de predicción es la suma de los cuadrados de las
distancias (desviaciones) desde cada punto hasta la línea
recta, donde se produce un mínimo.
• Simbólicamente, el error está dado por la fórmula: yye ˆ
Error Estándar del Estimado
• Se puede calcular la media de este error de pedicción
mediante la siguiente fórmula:
• Se puede calcular también la varianza y la desviación estándar
mediante las fórmulas a continuación:
• La desviación estándar se conoce como el error estándar del
estimado.
00
nn
ee
22
22
2
n
e
n
ees xy 2
2
n
es xy
Error Estándar del Estimado
• Para aplicar la fórmula anterior, primero hay que obtener el
error de cada punto individualmente.
• Este proceso puede ser bien tedioso, especialmente en
muestra grandes.
• La fórmula siguiente es una fórmula alterna más conveniente
en estos casos:
2
2
n
es xy
2
11 2
n
nrss yxy
Fórmula
Alterna
Ejemplo 3
• Usando los datos del ejercicio anterior que aparecen en la
Tabla 6.2 de la página 128, calcula el error estándar del
estimado usando la fórmula:
2
2
n
es xy
Ejemplo 3:
Est.Punt RazLog (x)
Punt Creat (y)
1 15 12 15.03 -3.03 9.18
2 10 13 11.78 1.22 1.49
3 7 9 9.83 -0.83 0.69
4 18 18 16.98 1.02 1.04
5 5 7 8.53 -1.53 2.34
6 10 9 11.78 -2.78 7.73
7 7 14 9.83 4.17 17.39
8 17 16 16.33 -0.33 0.11
9 15 10 15.03 -5.03 25.30
10 9 12 11.13 0.87 0.76
11 8 7 10.48 -3.48 12.11
12 15 13 15.03 -2.03 4.12
13 11 14 12.43 1.57 2.46
14 17 19 16.33 2.67 7.13
15 8 10 10.48 -0.48 0.23
16 11 16 12.43 3.57 12.74
17 12 12 13.08 -1.08 1.17
18 13 16 13.73 2.27 5.15
19 18 19 16.98 2.02 4.08
20 7 11 9.83 1.17 1.37
Total 233 257 0 116.59
12.4
65.11
xs
x
66.3
85.12
ys
y
74.0
16.11
r
sxy
Datos del Ejemplo 1
anterior.
yy ˆ2
yyy
Ejemplo 3
• Sustituyendo en la fórmula del error estándar del estimado
tenemos:
55.248.618
59.116
2
2
n
es xy
Ejemplo 3
• Usando los datos del ejercicio anterior que aparecen en la
Tabla 6.2 de la página 128, calcula el error estándar del
estimado usando la fórmula alterna.
2
11 2
n
nrss yxy
53.218
19)74.0(166.3 2
xys
Las centésimas de diferencia con la fórmula
anterior se deben al uso del redondeo.
Observe que cuando la correlación es alta, el
error estándar es pequeño.
Derivando la fórmula
• Recordando que una puntuación estándarizada z se obtiene
aplicando la fórmula:
• Para derivar la fórmula de , comencemos con la
ecuación de regresión:
• Si se sustituye el valor de a , , en la ecuación
anterior se obtiene:
• Reagrupando términos y factorizando se obtiene:
s
xxz
xy zrz ˆ
xy zrz ˆ
abxyxbya
xbybxy
xxbyy
Recommended