Tema 2: Regresión por mínimos cuadrados: bondad del ajuste - II
Biología sanitaria - UAH
Marcos Marvá Ruiz
Biología sanitaria - UAH Tema 2: Regresión por mínimos cuadrados: bondad del ajuste - II Marcos Marvá Ruiz 1 / 13
La recta de regresiónLos pares de variables,
¿varían conjuntamente?¿hay relación entre ellas?
40 50 60 70
100
200
300
400
500
600
700 Framingham
Edad
Col
este
rol t
otal
15 20 25 30 35 40 4520
3040
50
Leptograpsus variegatus
Longitud caparazón
Anc
hura
cap
araz
ón
Medir grado de asociación o variabilidad conjunta
Biología sanitaria - UAH Tema 2: Regresión por mínimos cuadrados: bondad del ajuste - II Marcos Marvá Ruiz 2 / 13
Recta de regresión
15 20 25 30 35 40 45
2030
4050
Leptograpsus variegatus
Longitud caparazón
Anc
hura
cap
araz
ón
15 20 25 30 35 40 45
2030
4050
Leptograpsus variegatus, por especie
Longitud caparazón
Anc
hura
cap
araz
ón
Fuentes de variabilidadSeñal: asociación lineal.Ruido: Variabilidad individual, variables no consideradas
Disponemos de
Valores observados (xj , yj )Valores predichos yj
Biología sanitaria - UAH Tema 2: Regresión por mínimos cuadrados: bondad del ajuste - II Marcos Marvá Ruiz 3 / 13
ANOVA: variabilidad debida al azar (ruido)Cada individuo es diferente: para X fijo se observan distintos valores de Y .
Variabilidadazar = SSresiduos =∑
(observado − predicho)2 =∑
(yj − yj )2
¡Este es el EC!
Biología sanitaria - UAH Tema 2: Regresión por mínimos cuadrados: bondad del ajuste - II Marcos Marvá Ruiz 4 / 13
Variabilidad debida al modelo (señal)Si existe relación lineal entre dos variables
y(x) = b1x + b0
la recta traslada la variabilidad de X a la variable Y
Variabilidad en Y : diferencia entre la media de lo observado y cada ‘’predicción”:
Variabilidadmodelo = SSmodelo =∑
(yj − y)2
La variable X está presente a través de yBiología sanitaria - UAH Tema 2: Regresión por mínimos cuadrados: bondad del ajuste - II Marcos Marvá Ruiz 5 / 13
La identidad ANOVAReagrupando términos, se verifica la identidad Anova (Analysis of variance)
n∑i=1
(yi − yi )2︸ ︷︷ ︸Variabilidad azar
+n∑
i=1
(yi − y)2︸ ︷︷ ︸variabilidad modelo
=n∑
i=1
(yi − y)2︸ ︷︷ ︸Variabilidad total
PizarraSobre identidad ANOVA
Dispersión debida al azar = ECI El EC= 0 si los puntos están exáctamente alineadosI El EC aumenta conforme los puntos se “desalinean”
Biología sanitaria - UAH Tema 2: Regresión por mínimos cuadrados: bondad del ajuste - II Marcos Marvá Ruiz 6 / 13
Coeficientes de correlación r y determinación r2
¿Tiene más peso el azar o el modelo?
¡¡calcular sus pesos relativos respecto de la variabilidad total!!
1 = Variabilidad azarVariabilidad total + Variabilidad modelo
Variabilidad total ⇔ 1 = ECMs2(y) +
(cov(x,y)s(x)s(y)
)2
r = Cov(x , y)s(x) · s(y)
r 2I Es el coeficiente de determinaciónI Es la proporción de la variabilidad total explicada por el modelo
rI Es el coeficiente de correlación de Pearson
Se dice que dos variables están fuertemente correlacionadas si el correspondiente r ≈ 1
Biología sanitaria - UAH Tema 2: Regresión por mínimos cuadrados: bondad del ajuste - II Marcos Marvá Ruiz 7 / 13
Propiedades de los coeficientes de correlación r y determinación r2
−1 < r < 1Signo de r es el signo de la pendiente de la rectaPara r > 0, se tiene 0 < r 2 < r < 1
Si r 2 = 1, entonces EC = 0 y los valores observados están sobre la rectaSi r , r 2 ∼ 0⇒ seguro, mal ajuste (poco peso del modelo y mucho el azar)Si el ajuste es bueno, ⇒ r , r 2 ∼ 1PERO si r , r 2 ∼ 1, el ajuste podría ser malo (Cuarteto de Anscombe!)
Biología sanitaria - UAH Tema 2: Regresión por mínimos cuadrados: bondad del ajuste - II Marcos Marvá Ruiz 8 / 13
Un valor de ‘r‘ alto NO implica que la recta sea un buen modelo
0.0 0.4 0.8
2.5
3.5
4.5
r = 0.89−1.0 0.0 0.5 1.0
−1.
00.
00.
51.
0
r = 0.97−1.0 0.0 0.5 1.0
−3
−2
−1
01
2
r = 0.99
Por eso, siempre (siempre, siempre) hay que representar los datos!!!
Sólo el de la izquierda es un buen ajuste
Biología sanitaria - UAH Tema 2: Regresión por mínimos cuadrados: bondad del ajuste - II Marcos Marvá Ruiz 9 / 13
Estudio de residuosAsegurate de que no hay patrones subyacentes.
Ejemplo: residuos de los gráficos anteriores
0.0 0.4 0.8
−0.
50.
5
−1.0 0.0 0.5 1.0
−0.
60.
00.
4
−1.0 0.0 0.5 1.0
−0.
60.
00.
4
Biología sanitaria - UAH Tema 2: Regresión por mínimos cuadrados: bondad del ajuste - II Marcos Marvá Ruiz 10 / 13
Estudio de residuosEjemplo: otros residuos “sospechosos”
1.0 1.4 1.8
26
12
Datos
1.0 1.4 1.8
−2
4
Residuos
0.5 1.5 2.5
−1
13
Datos
0.5 1.5 2.5
−0.
40.
4
Residuos
−1.5 0.0 1.0 2.0
−1.
50.
0
Datos
−1.5 0.0 1.0 2.0
−0.
40.
4Residuos
Biología sanitaria - UAH Tema 2: Regresión por mínimos cuadrados: bondad del ajuste - II Marcos Marvá Ruiz 11 / 13
Correlación y causalidad
La correlación no implica causalidad
Para esta muestra (procedente de spurious-correlations):
se obtiene r = 0.9979 pero. . . ¿crees que hay relación causa-efecto? (ver tambiénInvestigación y Ciencia).
Biología sanitaria - UAH Tema 2: Regresión por mínimos cuadrados: bondad del ajuste - II Marcos Marvá Ruiz 12 / 13
Resumen
Para la relacion entre dos variables
Idea intuitiva de ruido y modeloSignificado de r 2
Qué dicen y qué no dicen r y r 2
Importancia de estudiar los residuosCorrelación no implica causa-efecto
Biología sanitaria - UAH Tema 2: Regresión por mínimos cuadrados: bondad del ajuste - II Marcos Marvá Ruiz 13 / 13
Recommended