Upload
dangtram
View
239
Download
0
Embed Size (px)
Citation preview
Variables bidimensionales: regresión y correlación
Unidad Docente de Matemáticas de la E.T.S.I.T.G.C. 1
VARIABLES ESTADÍSTICAS BIDIMENSIONALES
1. Introducción.............................................................. 2
2. Distribuciones marginales........................................ 4
3. Momentos.................................................................. 7
3.1 Momentos respecto al origen................... 7
3.2 Momentos respecto a la media................. 8
4. Matriz de covarianzas.............................................. 9
5. Conceptos de ajuste y regresión.............................12
6. El método de los mínimos cuadrados....................13
6.1 Regresión lineal........................................13
6.2 Regresión parabólica...............................19
6.3 Regresión polinomica...............................20
7. Análisis de la correlación........................................20
7.1 La varianza residual.................................21
7.2 Coeficiente de correlación lineal.............22
ANEXO:
El método de los mínimos cuadrados en forma matricial….26
Variables bidimensionales: regresión y correlación
Unidad Docente de Matemáticas de la E.T.S.I.T.G.C. 2
VARIABLES ESTADÍSTICAS BIDIMENSIONALES
1. INTRODUCCIÓN
Hasta ahora hemos estudiado una sola característica de cada población. Si esa
característica era cuantitativa a cada individuo le hacíamos corresponder un número y
obteníamos las variables estadísticas unidimensionales.
Ahora vamos a estudiar conjuntamente dos características de una población.
Los dos caracteres observados no tienen porqué ser de la misma clase. Así, se nos
puede presentar:
- Dos caracteres cualitativos.
Ej.: El sexo y el color del pelo de una persona.
- Uno cualitativo y otro cuantitativo.
Ej.: La profesión y los años de servicio.
- Dos caracteres cuantitativos.
Ej.: El peso y la edad de una persona.
A cada individuo le vamos a hacer corresponder dos números y así obtenemos las
variables estadísticas bidimensionales.
Si llamamos E a la población, una variable estadística bidimensional es una
aplicación de E --->R2 .
A los caracteres les vamos a llamar x e y, cada uno de ellos presentará varias
modalidades e respectivamente.
Las parejas de valores, así obtenidas por observación conjunta, pueden representar
valores discretos, continuos de distinto tipo y podrán también repetirse un número
determinado de veces, dando lugar de esta forma a los conceptos de frecuencia absoluta
conjunta, paralelos a los ya estudiados para variables estadísticas unidimensionales.
x xr1,....., y ys1,.....,
Variables bidimensionales: regresión y correlación
Unidad Docente de Matemáticas de la E.T.S.I.T.G.C. 3
Se acostumbra a disponer los resultados en una tabla de doble entrada, donde en la
primera columna se colocan los valores de la variable "x" y en la primera fila los
valores de la variable "y". En la confluencia de la fila de xi con la columna yj se
coloca la frecuencia conjunta nij referida al resultado (xi,yj) correspondiente, es decir, nij es el
número de individuos que poseen conjuntamente las modalidades xi e yj , y que llamaremos
frecuencia absoluta conjunta del par (xi,yj).
Notaremos por la frecuencia relativa correspondiente al par , que vendrá
dada por la expresión ijij
nf
n , siendo n el número total de pares observados.
Por consiguiente, definimos distribución de frecuencias como el conjunto de valores
que toma la variable bidimensional con sus respectivas frecuencias absolutas o relativas. Esta
distribución se representa mediante la siguiente tabla:
y1 y
2 .......... yj .......... ys
x1
n11
n12
.......... n1j
.......... n1s
n1.
x2
n21
n22
.......... n2j
.......... n2s
n2.
... ... ... ... ... ... ... ...
xi ni1
ni2
.......... nij .......... nis ni.
... ... ... ... ... ... ... ...
xr nr1
nr2
.......... nrj .......... nrs nr.
n.1
n.2
.......... n.j .......... n.s n
donde xi e yj son los valores de las variables x e y, o las marcas de clase si están agrupadas, y,
verificándose, r s r s
i. . j iji 1 j 1 i 1 j 1
n n n n
Análogamente, las frecuencias relativas:
s ri.
i. ij i.j 1 i 1
nf f ; f 1
n
x xr1,...,
y ys1,...,
fij ( , )x yi j
n n n ni ijj
s
j iji
r
. . ;
1 1
Variables bidimensionales: regresión y correlación
Unidad Docente de Matemáticas de la E.T.S.I.T.G.C. 4
r s. j
. j ij . ji 1 j 1
nf f ; f 1
n
r sij
ij . ji=1 j 1
nf ; f 1
n
Las estadísticas de dos variables suelen representarse en un sistema de ejes
cartesianos, tomándose los valores de la variable "x" en el eje de abscisas y los de la variable
"y" en el de ordenadas y señalándose la confluencia en el plano con un punto. El conjunto de
puntos así obtenidos, en un número igual al de observaciones conjuntas efectuadas, recibe el
nombre de diagrama de dispersión o nube de puntos.
55
Diagrama de dispersión
x
y
xi
y
j
Como en un diagrama de dispersión no puede quedar reflejado las veces que se repite
un par o un intervalo, hemos de recurrir a una representación en tres dimensiones de (x,y).
Dos son para la variable bidimensional y una para expresar las frecuencias.
2. DISTRIBUCIONES MARGINALES
EJEMPLO 1:
Consideremos 150 alumnos a los que se les ha preguntado las calificaciones
obtenidas en Física y Matemáticas. Así se han obtenido pares de resultados (x=nota en
Física, y=nota en Matemáticas), cuya información recogemos en la siguiente tabla de
doble entrada:
Física\Matemáticas Suspenso Aprobado
Suspenso 65 15
Variables bidimensionales: regresión y correlación
Unidad Docente de Matemáticas de la E.T.S.I.T.G.C. 5
Aprobado 10 60
Podemos responder a las siguientes preguntas: 1) ¿Cuántos alumnos han
aprobado Física? ¿Cuántos han suspendido? 2) ¿Cuántos alumnos han suspendido
Matemáticas? ¿Cuántos han aprobado?
Solucion:
Física\Matemáticas Suspenso Aprobado
Suspenso 65 15 80
Aprobado 10 60 70
75 75 150
Para la primera pregunta hemos de tener en cuenta solamente la variable x (Física).
x
Suspensos 80
Aprobados 70
n ni ijj
s
.
1
frecuencia marginal del valor xi
Distribución marginal de la variable "x" son los valores que toma dicha variable con
sus respectivas frecuencias.
x ni..
x1 n1.
x2 n2.
.... ....
xi ni.
.... ....
xr nr.
Para la segunda pregunta hemos de proceder de manera análoga para la variable "y".
y jy . jn n
Suspensos 75
Aprobados 75
n nx ii .
Variables bidimensionales: regresión y correlación
Unidad Docente de Matemáticas de la E.T.S.I.T.G.C. 6
n nj iji
r
.
1
.frecuencia marginal del valor yj.
La tabla representada con la variable "y" con sus frecuencias marginales, recibe el
nombre de distribución marginal de la variable "y".
y n.j
y1 n.1
y2 n.2
.... ....
yj n.j
.... ....
ys n.s
A partir de las frecuencias absolutas marginales se obtienen las frecuencias relativas
marginales.
. ji.i. . j
nnf f
n n
Naturalmente, para cada una de las distribuciones marginales pueden hallarse las
medias, las varianzas, las desviaciones típicas y cualquier otra medida de las ya consideradas
para las estadísticas de una sola variable.
Medias marginales:
r r s s
i i. i i. j . j j . ji 1 i 1 j 1 j 1
1 1X x n x f ; Y y n y f
n n
El punto (X, Y) se llama centro de gravedad de la distribución bidimensional o
vector de medias.
Varianzas marginales:
r r2 2 2x i i. i i.
i 1 i 1
1(x X) n (x X) f
n
Variables bidimensionales: regresión y correlación
Unidad Docente de Matemáticas de la E.T.S.I.T.G.C. 7
s s2 2 2y j . j j . j
j 1 j 1
1(y Y) n (y Y) f
n
por tanto, las desviaciones típicas marginales, serán:
r r2 2
x i i. i i.i 1 i 1
1(x X) n (x X) f
n
s s2 2
y j . j j . jj 1 j 1
1(y Y) n (y Y) f
n
Si en vez de dividir por n se divide por n-1 obtenemos las cuasivarianzas marginales
.
3. MOMENTOS
3.1. Momentos respecto al origen
r s
h kh,k i j ij
i 1 j 1
1m x y n
n
Algunos momentos particulares:
r s
1,0 i ij i i. i i.i 1 j 1 i i
1 1m x n x n x f X
n n
r s
0,1 j ij j . j j . ji 1 j 1 j j
1 1m y n y n y f Y
n n
r s
1,1 i j ij i j iji 1 j 1 i j
1m x y n x y f
n
r s
2 2 22,0 i ij i i. i i.
i 1 j 1 i i
1 1m x n x n x f
n N
r s
2 2 20,2 j ij j . j j . j
i 1 j 1 j j
1 1m y n y n y f
n n
Sx2 y Sy
2
m00 1
Variables bidimensionales: regresión y correlación
Unidad Docente de Matemáticas de la E.T.S.I.T.G.C. 8
3.2. Momentos respecto a la media
r sh k
h,k i j iji 1 j 1
1(x X) (y Y) n
n
Casos particulares interesantes:
r s
1,0 i iji 1 j 1
1(x X) n X X 0
n
r s 22 2 2
2,0 i ij i i. x 2,0i 1 j 1 i
1 1(x X) n (x X) n m X
n n
r s 22 2 2
0,2 j ij j . j y 0,2i 1 j 1 j
1 1(y Y) n (y Y) n m Y
n n
r s
1,1 i j ij i j ij j ij i iji 1 j 1 i j i j i j
ij i j ij 1,1 xyi j i j
1 1 1 1(x X) (y Y) n x y n X y n Y x n
n n n n
1 1XY n x y n XY m XY
n n
xy recibe el nombre de covarianza, de gran importancia práctica, se define como la
media aritmética de los productos de las desviaciones de la variable x con respecto a su media
aritmética, , por las desviaciones de la variable y con respecto a la media aritmética, .
De la misma forma que en el caso de la varianza, se define la covarianza muestral por
r si j ij
xy xy xyi 1 j 1
(x X)(y Y)n nS siendo S
n 1 n 1
.
Cuando las variables x e y son independientes se cumple que la covarianza es nula, en cuyo
caso se dice que son incorreladas. El reciproco no es cierto.
Si la covarianza es distinta de cero, entonces las variables son dependientes.
0 0 1,
0 1 0, Y Y
X Y
Variables bidimensionales: regresión y correlación
Unidad Docente de Matemáticas de la E.T.S.I.T.G.C. 9
4. MATRIZ DE COVARIANZAS
Llamamos matriz de covarianzas, a la matriz cuadrada simétrica que tiene en la
diagonal principal las varianzas marginales, y fuera de la diagonal principal las covarianzas,
es decir 2x xy
2yx y
S S
S S
; que es simétrica, pues xy yxS S . O bien
x xy
xy y
2
2
Se llama varianza generalizada al valor 2 2 2x y xyS S S 0 (semidefinida positiva) y
mide aproximadamente el área ocupado por el conjunto de datos.
EJEMPLO 2:
Las calificaciones obtenidas por 30 alumnos en los exámenes cuatrimestral (x) y
final (y) de Matemáticas fueron las siguientes:
x 0 0 1 2 1 3 4 9 2 5
y 2 0 0 5 3 6 8 10 3 7
x 6 1 3 5 0 6 4 4 6 4
y 9 1 6 9 1 9 8 6 10 7
x 3 2 7 2 8 4 6 6 6 7
y 5 4 10 4 9 4 8 10 5 8
Se pide: a) Formar una tabla de doble entrada sin agrupar los datos en intervalos. b)
Hallar las distribuciones marginales. Media y varianza de las mismas. c) Determinar la
covarianza .
Solución: a)
x\y 0 1 2 3 4 5 6 7 8 9 10 ni.
0 1 1 1 0 0 0 0 0 0 0 0 3
1 1 1 0 1 0 0 0 0 0 0 0 3
2 0 0 0 1 2 1 0 0 0 0 0 4
3 0 0 0 0 0 1 2 0 0 0 0 3
4 0 0 0 0 1 0 1 1 2 0 0 5
5 0 0 0 0 0 0 0 1 0 1 0 2
6 0 0 0 0 0 1 0 0 1 2 2 6
7 0 0 0 0 0 0 0 0 1 0 1 2
8 0 0 0 0 0 0 0 0 0 1 0 1
9 0 0 0 0 0 0 0 0 0 0 1 1
n.j 2 2 1 2 3 3 3 2 4 4 4 30
Variables bidimensionales: regresión y correlación
Unidad Docente de Matemáticas de la E.T.S.I.T.G.C. 10
b) Distribuciones marginales
xi ni. xini. xi2 ni. yj n.j yjn.j yj2n.j
0 3 0 0 0 2 0 0
1 3 3 3 1 2 2 2
2 4 8 16 2 1 2 4
3 3 9 27 3 2 6 18
4 5 20 80 4 3 12 48
5 2 10 50 5 3 15 75
6 6 36 216 6 3 18 108
7 2 14 98 7 2 14 98
8 1 8 64 8 4 32 256
9 1 9 81 9 4 36 324
30 117 635 10 4 40 400
30 177 1333
Medias Marginales:
i i.i
1 117X x n
n 30 3.9
j . jj
1 177Y y n
n 30 5.9
Varianzas marginales:
22 2 2x i i.
i
1 635x n X 3.9
n 30 5.96
22 2 2y j . j
j
1 1333y n Y 5.9
n 30 9.62
c) Los calculos correspondientes se detallan en la tabla de doble entrada, añadiendo las dos
filas siguientes
x\y 0 1 2 3 4 5 6 7 8 9 10 ni.
0 1 1 1 0 0 0 0 0 0 0 0 3
1 1 1 0 1 0 0 0 0 0 0 0 3
2 0 0 0 1 2 1 0 0 0 0 0 4
3 0 0 0 0 0 1 2 0 0 0 0 3
4 0 0 0 0 1 0 1 1 2 0 0 5
Variables bidimensionales: regresión y correlación
Unidad Docente de Matemáticas de la E.T.S.I.T.G.C. 11
5 0 0 0 0 0 0 0 1 0 1 0 2
6 0 0 0 0 0 1 0 0 1 2 2 6
7 0 0 0 0 0 0 0 0 1 0 1 2
8 0 0 0 0 0 0 0 0 0 1 0 1
9 0 0 0 0 0 0 0 0 0 0 1 1
n.j 2 2 1 2 3 3 3 2 4 4 4 30
x ni iji
1 1 0 3 8 11 10 9 21 25 28
y x nj i iji
0 1 0 9 32 55 60 63 168 225 280 893j
Otra forma de calculo sería :
i j ijx y n 0 0 1 1 0 1 0 1 1 1 1 1 0 2 1 1 3 1 2 3 1 2 4 2 4 4 1 2 5 1 3 5 1 6 5 1 3 6 2 4 6 1 4 7 1 5 7 1 4 8 2 6 8 1 7 8 1+
5 9 1 6 9 2 8 9 1 6 10 2 7 10 1 9 10 1 893
con lo cual , 1,1 i j ij j i iji j j i
1 1 893m x y n y x n 29.767
n n 30
La covarianza 1,1 xy 1,1m XY 29.767 3.9 5.9 6.76
La matriz de covarianzas :
x xy
xy y
2
2
596 6 76
6 76 9 62
. .
. .
En las distribuciones bidimensionales se presentan dos problemas que dan origen a dos
teorías:
1.- Teoría de la regresión: que trata de predecir los valores de una variable para valores
prefijados de la otra.
2.- Teoría de la correlación: que trata de medir la interdependencia estadística entre dos
variables.
Variables bidimensionales: regresión y correlación
Unidad Docente de Matemáticas de la E.T.S.I.T.G.C. 12
5. CONCEPTOS DE AJUSTE Y REGRESIÓN
Entre las variables marginales de una distribución estadística bidimensional, puede
haber diversos tipos de dependencia. Puede haber una dependencia funcional, como por
ejemplo entre tiempo y espacio recorrido por un móvil, ya que existe una expresión
matemática que los relaciona. Pero puede haber, también, otra dependencia aleatoria en la
que conocida una variable no es posible saber exactamente el valor de la otra, pero sí tener
una idea aproximada de la misma, como por ejemplo la relación entre talla y peso de un
individuo.
El procedimiento a seguir es la observación de una variable estadística bidimensional
(x,y) y su representación en una nube de puntos o diagrama de dispersión y observar si se
distribuyen alrededor de una linea o tendencia.
Desde un punto de vista gráfico, diremos que un ajuste es la sustitución de un
diagrama de dispersión por una línea, que, sin que deba pasar por todos los puntos, (*), se
adapte lo mejor posible a todos ellos; y, desde un punto de vista analítico, un ajuste es la
sustitución de la dependencia de tipo funcional o exacto, que implica la determinación de los
parámetros que caracterizan a tal función analítica.
(*) Obsérvese que la interpolación consiste en obtener una curva que pase por los puntos.
La función que pretendemos obtener será una línea que llamaremos línea de
regresión, cuya ecuación puede ser de las formas siguientes:
y a bx , recta.
, parábola.
, polinómica.
, exponencial.
, hipérbola.
Dependiendo de la función elegida para el ajuste, la regresión será lineal, parabólica,
etc.
y a bx cx 2
y a a x a xnn 0 1 .....
y c akx
ya bx
1
Variables bidimensionales: regresión y correlación
Unidad Docente de Matemáticas de la E.T.S.I.T.G.C. 13
El interés de la línea de regresión radica en poder predecir los valores de una variable
para los valores prefijados de la otra, lo que constituye el problema general de la teoría de la
regresión o del ajuste.
Si tratamos de predecir y conocida x, habremos de calcular la línea de regresión de y
sobre x, que será y=f(x). Recíprocamente x=g(y) será la línea de regresión de x sobre y.
6. EL MÉTODO DE LOS MÍNIMOS CUADRADOS
Dependiendo de la forma que adopte la nube de puntos sabremos en principio si
hemos de emplear una recta, una parábola, etc.
Una vez elegida la línea hemos de estimar los parámetros correspondientes a la misma
a partir de los datos observados. La estimación o cuantificación de los parámetros viene
determinada por las distintas condiciones que se establezcan previamente. La condición más
usual y de mayor utilidad práctica es la denominada de mínimos cuadrados.
Este método de ajuste se fundamenta en considerar como la mejor adaptación, la de
una línea tal que sea mínima la suma de los cuadrados de las diferencias entre los valores
observados o empíricos y los ajustados o teóricos, correspondientes a los distintos valores de
la función analítica elegida para los mismos valores de la variable explicativa.
6.1. Regresión lineal (Ajuste por mínimos cuadrados, a una recta).
Recta de regresión de y sobre x.
Consideremos los datos conseguidos experimentalmente:
( , ) , ( , ) ,....,( , )x y x y x yn n1 1 2 2
Se quiere adaptarlos a una recta y=a+bx
Por consiguiente;
1 1
2 2
n n
y a bx
y a bx
y a bx
Variables bidimensionales: regresión y correlación
Unidad Docente de Matemáticas de la E.T.S.I.T.G.C. 14
Si los puntos no están sobre una recta y=a+bx. Escogeremos a y b de tal forma que
i i i iy y * y (a bx ) sea mínimo.
De todas las rectas y=a+bx buscaremos la recta que hace mínima la suma de los cuadrados de
las desviaciones que representan la distancia vertical de los datos (xi,yi) a los puntos (xi,yi*)
n n
2 2
i i i ii 1 i 1
min y y * y a bx
Al depender de dos parámetros sus derivadas parciales deben ser nulas:
n n n2
i i i i i ii 1 i 1 i 1
n n n2
i i i i i i i ii 1 i 1 i 1
y a bx 0 2 y a bx ( 1) 0 y a bx 0a
y a bx 0 2 y a bx ( x ) 0 y a bx x 0b
n n n
i ii 1 i 1 i 1
n n n2
i i i ii 1 i 1 i 1
y a b x 0
x y a x b x 0
n n
i ii 1 i 1
n n n2
i i i ii 1 i 1 i 1
y an b x
x y a x b x
Que reciben el nombre de Ecuaciones normales de la recta de regresión de y sobre x
Al dividir por n:
n n
i ii 1 i 1
n n n n n2 2
i i i i i i ii 1 i 1 i 1 i 1 i 1
y xa b Y a bX
n n
x y x x x y xa b aX b
n n n n n
Al despejar a en la primera ecuación y sustituir en la segunda
n
n n n n i i2 2 2 i 1
i i i i ixyi 1 i 1 i 1 i 1
n 22 xi
2i 1
x yx y x x x X Y
naX b Y bX b bn n n n x
Xn
Nos indica que el parámetro b de una recta de regresión puede calcularse mediante el cociente
entre la covarianza y la varianza de la variable que actúa como independiente.
Variables bidimensionales: regresión y correlación
Unidad Docente de Matemáticas de la E.T.S.I.T.G.C. 15
Este parámetro xyx 2
xyb
recibe el nombre de coeficiente de regresión de la variable
y con respecto a la variable x, y es la pendiente de la recta de y sobre x, por consiguiente, el
sentido de crecimiento o decrecimiento, así como el grado de variación, viene determinado
por el signo y el valor del coeficiente de regresión b.
La expresión del parámetro "a" una vez conocido el valor b, será:
a Y bX Y Xxy
x
2
Sustituyendo los valores obtenidos en , se tiene:
y Y X xxy
x
xy
x
2 2 de donde xy
2x
y Y x X
que es la ecuación de la recta de
regresión de y sobre x. Esta recta permite calcular, aproximadamente, los valores de y dados
los de x.
Nota: anulando las derivadas se obtiene el mínimo (y no el máximo) como se puede
comprobar con el Hessiano.
Interpretación geométrica.
n n
2 2
i i i ii 1 i 1
min y y * y a bx
2 2 2 21 1 n n 1 n(y a bx ) ...... (y a bx ) e ...... e
como error vertical o distancia vertical
eiyi
yi*
xi
y=a+bx
y a bx
e y a bx y yi i i i i ( )y teóricoi
Variables bidimensionales: regresión y correlación
Unidad Docente de Matemáticas de la E.T.S.I.T.G.C. 16
EJEMPLO 3: Obtener la recta de ajuste por mínimos cuadrados que se adapta a los
puntos (0,1), (1,3), (2,4) y (3,4).
Solución:
x y xy x2 y2
0 1 0 0 1
1 3 3 1 9
2 4 8 4 16
3 4 12 9 16
6 12 23 14 42
ii
1 6X x 1,5
n 4 ;
22 2 2x i
i
1 14x X 1,5 1, 25
n 4
jj
1 12Y y 3
n 4 ;
22 2 2y j
j
1 42y Y 3 1,5
n 4
xy i ji j
1 23x y XY 1,5 3 1,25
n 4
La recta de regresión de y sobre x:
xy
2x
1, 25y Y x X y 3 x 1.5
1, 25
y= 1.5 + x
Existe otra recta de regresión que podemos obtener con los mismo datos.
Recta de regresión de x sobre y:
La recta de regresión de x sobre y no se obtiene despejando la x de la ecuación
anterior, sino repitiendo un proceso análogo. En lugar de tomar las distancias sobre las
verticales, se toman sobre las horizontales, .
eij
( )e x xij j i
Variables bidimensionales: regresión y correlación
Unidad Docente de Matemáticas de la E.T.S.I.T.G.C. 17
xxj*xi
yj
y
Se demuestra que xy
2y
x X y Y
es la recta de regresión de x sobre y, que
permite calcular aproximadamente los valores de x dados los de y. Donde 1
2
by
xy
es la
pendiente de la recta de regresión de x sobre y, cuyo coeficiente de regresión es b.
EJEMPLO 3: Obtener la recta de ajuste por mínimos cuadrados que se adapta a los
puntos (0,1), (1,3), (2,4) y (3,4).
Solución:
La recta de regresión de x sobre y:
xy
2y
1, 25x X y Y x 1.5 y 3
1,5
x= 5/6 y - 1
Propiedades de las rectas de regresión:
Las dos rectas de regresión y Y b x X x X b y Yyx xy ( ) , ( ) se cortan en
un punto, que es precisamente el , llamado, por su naturaleza de promedio, centro de
gravedad de la distribución.
Por otra parte, es claro que x2 y y
2 son siempre positivos y, en consecuencia, las
pendientes de ambas rectas tienen el mismo signo que la covarianza xy y aparecen
íntimamente ligadas, lo que justifica la denominación de covarianza (varianza conjunta).
Una vez construidas las rectas de regresión, la pendiente de la de x sobre y es mayor
que la correspondiente a la recta de regresión de y sobre x.
( , )X Y
Variables bidimensionales: regresión y correlación
Unidad Docente de Matemáticas de la E.T.S.I.T.G.C. 18
(x a ') 1x a ' b ' y y tg
b ' b 'y a bx tg b
tenemos que: 1
btg tg 1 b 'bb 'tg tg11 tg tg b ' b1 bb '
(1)
En el caso de que la dependencia lineal en estudio sea de tipo exacto o funcional, las
dos rectas son recíprocas. Esto es:
de aquí, en consecuencia, si ambas rectas son identicas:
Cuanto más pequeña sea la tangente del ángulo formado por la intersección de las
dos rectas, tanto más representativo será el ajuste lineal efectuado.
EJEMPLO 4.
Con los datos del ejemplo 2, se pide:
a) Calcular ambas rectas de regresión.
b) Estimar la nota final de un alumno que obtuvo un 6 en el parcial.
Solución:
a) Teníamos calculado:
2 2X 3.9, Y 5.9, 5.96, 9.62, 6.76x y xy
bb
1
0 0 11 tg b b bb
Variables bidimensionales: regresión y correlación
Unidad Docente de Matemáticas de la E.T.S.I.T.G.C. 19
Así pues, las rectas de regresión son:
y sobre x: y x y x 596 76
59639 113 148.
.
.( . ) . .
x sobre y: x y x y 396 76
9 6259 0 7 0 25.
.
.( . ) . .
b) Esta estimación se hace a partir de la recta de regresión de y sobre x, y x 113 148. . .
Como x 6, se tiene que y 113 6 148 8 26. . . nota del examen final.
6.2. Regresión parabólica.
Vamos a suponer ahora que a la vista del diagrama de dispersión, es más conveniente
ajustar por un polinomio de grado dos (parábola), como caso más sencillo aunque el método
empleadoes válido en general para un polinomio de grado n.
Nuestro objetivo es estimar los parámetros a, b, y c a partir de los datos observados,
empleando también el método de los mínimos cuadrados.
La función a minimizar es:
y derivando con respecto a los tres parámetros se obtiene:
2i i j
i, j
2i i j i
i, j
2 2i i j i
i, j
f (a, b,c)2 (a bx cx y ) 0
a
f (a, b,c)2 (a bx cx y ) x 0
b
f (a, b,c)2 (a bx cx y ) x 0
c
que aplicando las propiedades del sumatorio y simplificando se obtienen las ecuaciones
llamadas normales de la parábola de regresión.
y a bx cx
2
f a b c a bx cx yi i ji j
( , , ) ( ),
2 2
aN b x c x y
a x b x c x x y
a x b x c x x y
ii
ii
ji j
ii
ii
ii
i ji j
ii
ii
ii
i ji j
2
2 3
2 3 4 2
,
,
,
Variables bidimensionales: regresión y correlación
Unidad Docente de Matemáticas de la E.T.S.I.T.G.C. 20
Por último, dividiendo por N queda:
Resolviendo este sistema por la regla de Cramer, se obtienen los parámetros a,b,c de
la parábola de regresión.
6.3. Regresión polinómica.
Vamos a suponer ahora que a la vista del diagrama de dispersión, es más conveniente
ajustar por un polinomio de grado n. Por ejemplo, si es una parábola escogeremos el grado
dos.
Para un polinomio de grado n: y* = a0 + a1 x + ... +an xn
Nuestro objetivo es estimar los parámetros ai, i=0, 1,...., n, a partir de los datos
observados, empleando también el método de los mínimos cuadrados.
El procedimiento es similar al anterior planteando las ecuaciones normales y resolviendo el
sistema.
7. ANÁLISIS DE LA CORRELACIÓN.
Se hace necesario, ahora, completar el análisis de la regresión con la obtención de
unas medidas o coeficientes que permitan calibrar el grado de dependencia estadística
existente entre las dos variables, o dicho de otro modo, el grado de representatividad o bondad
del ajuste realizado.
Llamaremos correlación a la teoria que trata de estudiar la dependencia que existe
entre las dos variables que intervienen en una distribución bidimensional.
a b m c m m
a m b m c m m
am b m c m m
10 20 01
10 20 30 11
20 30 40 21
Variables bidimensionales: regresión y correlación
Unidad Docente de Matemáticas de la E.T.S.I.T.G.C. 21
7.1. La varianza residual
Una vez ajustada la línea de regresión y* a una nube de puntos, observamos que se
obtienen unas diferencias entre los distintos valores ajustados o teóricos yi*, y los
correspondientes valores observados o empíricos yj.
eij=yi*-yj
La varianza residual se define como la varianza de los errores o residuos
2 2r i j ij
i, j
1(y * y ) n
n
En el caso lineal:
2 2
xy xy2 2r i j ij i j ij i j ij2 2
i, j i, j i, jx x
22xy xy
j ij i ij i j ij2 2i, j i, j i, jx x
2 22xy xy
j ij i ij4 2i, j i, jx x
1 1 1(y * y ) n Y x X y n x X y Y n
n n n
1 1 1y Y n x X n 2 x X y Y n
n n n
1 1y Y n x X n 2
n n
i j iji, j
2 2xy xy xy2 2 2
y x xy y4 2 2x x x
1x X y Y n
n
2
Como 2xy 2 2
r y2x
0
y es una medida de dispersión de los datos respecto a la media. Se
puede interpretar como la suma de los errores que cometariamos si estimaramos cada valor yj
por y .
También se dice varianza no explicada representa, la parte de la variación de Y que no es
capaz de explicar el modelo elegido, puede interpretarse como una medida de la bondad del
ajuste, valores grandes de la varianza no explicada indican que el modelo no es adecuado. Sin
embargo, 2r no es válida para juzgar la bondad del ajuste, ya que, depende de las unidades de
medida. Una forma de evitar este problema es dividir la varianza no explicada por la varianza
total de Y ( 2y ), así pues, utilizaremos el cociente
2r
2y
que representa la proporción de
varianza de Y no explicada por el modelo de regresión.
Variables bidimensionales: regresión y correlación
Unidad Docente de Matemáticas de la E.T.S.I.T.G.C. 22
Así, la medida que usaremos para juzgar la bondad del ajuste es la razón de correlación,
también llamada coeficiente de determinación 2
2 r2y
R 1
que representa la proporción de la
variación de Y explicada por el modelo de regresión.
2 2y r2
2y
varianza explicada varianza residualR 1
varianza de Y varianza de Y
7.2. Coeficiente de correlación lineal.
Una medida de proporción de la variación total nos la da el coeficiente de
determinación.
2 2 2 2y r2 r r
2 2 2y y y
R 1 R 1
Como 2 2 2r y R 1 1 R 1
R nos mide (en tanto por uno) lo que hemos mejorado nuestrapredicción al estimar y.
por medio de la línea de regresión en vez de por la media marginal y .
La raíz cuadrada del coeficiente de determinación se denomina coeficiente de
correlación lineal y es igual a la media geométrica de los coeficientes de regresión byx y
bxy.
yx xyr b b
lo que da lugar a:
r b b ryx xy
xy
x
xy
y
xy
x y
xy
x y
22 2
2
2 2
El coeficiente de correlación lineal es un número abstracto y es independiente de las
unidades utilizadas en las variables, cuyo signo es el de la covarianza, ya que las varianzas
son positivas, y comprendido entre -1 y +1.
Variables bidimensionales: regresión y correlación
Unidad Docente de Matemáticas de la E.T.S.I.T.G.C. 23
En efecto:
Como
Interpretación del coeficiente de correlación lineal.
Recordemos que se vio en el epígrafe 5.6.1. al hablar del ángulo que formaban las
rectas de regresión, la expresión (1) :
PRIMER CASO:
Si r=1 la covarianza xy será positiva, las pendientes de las rectas de regresión son
positivas; a valores crecientes de x corresponde valores crecientes de y. Es la correlación
perfecta y directa.
Si r=-1 la covarianza xy será negativa, las pendientes de las rectas de regresión son
negativas; a valores crecientes de x corresponde valores decrecientes de y. La correlación es
perfecta e inversa.
El ángulo que forman ambas rectas será de y en ambos casos las rectas son
coincidentes. Hay dependencia funcional recíproca.
SEGUNDO CASO:
Supongamos que r xy 0 0 , no hay correlación, es decir, a cualquier valor de x
corresponde el mismo y, lo que indica la falta absoluta de dependencia entre las variables, se
dice que son incorreladas.
Las rectas de regresión serán:
tg tg r b btg
tgr ryx xy
2 1 1 1 1,
tgb b
b bxy yx
xy yx
1
0
Variables bidimensionales: regresión y correlación
Unidad Docente de Matemáticas de la E.T.S.I.T.G.C. 24
x
y
obviamente perpendiculares.
TERCER CASO:
Si 0 < r < 1, hay correlación positiva. El signo viene caracterizado por la covarianza
xy que consideraremos positiva y por tanto las pendientes de las rectas de regresión son
positivas.
Si -1 < r < 0, hay correlación negativa xy <0. Las pendientes son negativas y, al
aumentar los valores de una variable, disminuyen los de la otra. La correlación será “buena“
para valores de r próximos a -1 y “mala” si son próximos a 0.
Señalemos, por último, que el coeficiente de correlación lineal no es propiamente una
medida de tipo cuantitativo, sino una medida de tipo cualitativo que indica únicamente el
grado de la intensidad de la relación lineal existente entre las variables.
EJEMPLO 5:
Calculemos el coeficiente de correlación para el ejemplo 4.
Solución:
rxy
x y
6 76
5 96 9 620 89
.
. ..
Existe una fuerte dependencia aleatoria directa entre las dos variables. Las
estimaciones hechas a partir de las rectas de regresión serán fiables.
y Y
x X
Variables bidimensionales: regresión y correlación
Unidad Docente de Matemáticas de la E.T.S.I.T.G.C. 25
Observaciones: El que dos variables tengan una correlación lineal alta (sea positiva o
negativa) puede no significar una relación de causa-efecto entre ellas.
Observando la matriz de covarianza 2 2x xy x x y
2 2xy y x y y
r
r
y por tanto
2 2 2x y (1 r ) 0 . Si las variables no están correlacionadas entre sí, el determinante toma
su valor máximo.
http://asignaturas.topografia.upm.es/matematicas/videos/RegresionyCorrelacion.mp4
http://asignaturas.topografia.upm.es/matematicas/videos/RegresionyCorrelacion.wmv
Variables bidimensionales: regresión y correlación
Unidad Docente de Matemáticas de la E.T.S.I.T.G.C. 26
ANEXO
EL MÉTODO DE LOS MÍNIMOS CUADRADOS EN FORMA MATRICIAL
Consideremos los datos conseguidos experimentalmente:
( , ) , ( , ) ,....,( , )x y x y x yn n1 1 2 2 ( , ) , ( , ) ,....,( , )x y x y x yn n1 1 2 2
Se quiere adaptarlos a una recta y=a+bx
Por consiguiente;
1 1
2 2
n n
y a bx
y a bx
y a bx
en forma matricial:
1 1
n n
y 1 x
. 1 .a
. 1 .b
. 1 .
y 1 x
o bien y = M v donde
1 1
n n
y 1 x
. 1 .a
y , M , v. 1 .b
. 1 .
y 1 x
Si los puntos no están sobre una recta y M v 0. Escogeremos a y b de tal forma que
y M v sea mínimo.
Sea a
vb
el vector que minimiza la diferencia a la línea y a b x "RECTA DE
REGRESIÓN" y y M son fijos, al variar v los vectores Mv forman un subespacio de Rn, espacio de
la columna de M. Gráficamente,
Variables bidimensionales: regresión y correlación
Unidad Docente de Matemáticas de la E.T.S.I.T.G.C. 27
y-Mv
Mv
Mv *
y
y-Mv*
La solución mínima y M v debe ser ortogonal al subespacio
t
t t
t t t
t t
y Mv Mv v
Mv y Mv 0
v M y Mv 0
v M y M Mv 0 v
M y M Mv 0
1t tv M M M y
donde 1t t1 n M M r M M 2 x ,..., x
no están sobre la vertical.
1
it2
i i1 n
n
1 x
. .n x1 . . . 1
M M . .x xx . . . x
. .
1 x
1 21 i i it
2 22i i ii i
n x x x1M M
x x x nn x x
t
1 1
it
i i
n n
1 x y
. . .y
M y . . .x y
. . .
1 x y
Por último,
Variables bidimensionales: regresión y correlación
Unidad Docente de Matemáticas de la E.T.S.I.T.G.C. 28
21 ii it t
22i iii i
2i i i i i
22i i i ii i
yx x1M M M y
x yx nn x x
x y x x y1
x y n x yn x x
2i i i i i
2 22i i i i i i i 20 1122 2
i i x
i i i i i i i i 11222xi i 22
i i
x y x x y
n n n nx y x x y x x m Y Xmn x x n n
n x y x y x y x y m XY
n n nn x xx x
n n
m Y YX X Y Xm Y Xa
bx
xy
x
x xy
x
xy
x
20
2 2
112
2
2
2
2
EJEMPLO 3: Obtener la recta de ajuste por mínimos cuadrados que se adapta a los
puntos (0,1), (1,3), (2,4) y (3,4).
Solución:
M
1 0
1 11 2
1 3
, Y =
1
3
4
4
, Mt.M = 4 6
6 14
, (Mt.M)-1 =
1
10
7 3
3 2
,
1t t
1
a 7 3 1 1 1 1 3 1.51M M M y =
b 3 2 0 1 2 3 4 110
4
y= 1.5 + x