View
14
Download
3
Category
Preview:
Citation preview
Enrique R. AznarDpto. de Álgebra
Página web personal
Página de Abertura
Contenido
JJ II
J I
Página 1 de 63
Atrás
Pantalla grande/pequeña
Cerrar
ESPACIOS EUCLÍDEOS. CONGRUENCIA.
¿Cómo medimos los vectores y los ángulos?
1. Productos escalares. 6Definición 1 6Lema 1 6Ejemplo 1 7Lema 2 7Definición 2 8Definición 3 8Ejemplo 2 8Ejemplo 3 9
2. Matrices métricas o de Gram. 10Definición 4 10Lema 3 10Ejemplo 4 10Ejemplo 5 11Ejemplo 6 12
Enrique R. AznarDpto. de Álgebra
Página web personal
Página de Abertura
Contenido
JJ II
J I
Página 2 de 63
Atrás
Pantalla grande/pequeña
Cerrar
Definición 5 12Definición 6 12Lema 4 12
3. Congruencia de matrices. 12Lema 5 13Definición 7 13Definición 8 13Ejemplo 7 14Definición 9 14
4. Matrices grammianas. 15Definición 10 15Lema 6 15Lema 7 16Teorema 1 16Corolario 1 17Corolario 2 17Corolario 3 18Ejemplo 8 18
5. Norma de un vector. 19Definición 11 19Ejemplo 9 19Lema 8 19Ejemplo 10 19
Enrique R. AznarDpto. de Álgebra
Página web personal
Página de Abertura
Contenido
JJ II
J I
Página 3 de 63
Atrás
Pantalla grande/pequeña
Cerrar
Definición 12 20Teorema 2 20Teorema 3 21
5.1. Aplicaciones estadísticas 22Ejemplo 11 23
6. Concepto de ángulo. Vectores ortogonales 26Definición 13 26Ejemplo 12 26Definición 14 27Ejemplo 13 28Ejemplo 14 28Definición 15 28Lema 9 28Definición 16 29Teorema 4 29Definición 17 29Ejemplo 15 30
7. Coeficientes de Fourier. Ortonormalización. 30Definición 18 30Ejemplo 16 31Definición 19 31Lema 10 32Definición 20 32
Enrique R. AznarDpto. de Álgebra
Página web personal
Página de Abertura
Contenido
JJ II
J I
Página 4 de 63
Atrás
Pantalla grande/pequeña
Cerrar
Ejemplo 17 32Definición 21 33Lema 11 33Definición 22 33Teorema 5 33Ejemplo 18 34Corolario 4 35Ejemplo 19 35
8. Algoritmos de Gram-Schmidt. 37Ejemplo 20 38
9. Algoritmo de Cholesky. 38Ejemplo 21 39
10. Descomposición QR de una matriz. 40Definición 23 41Ejemplo 22 41
11. Complemento ortogonal. 42Definición 24 42Teorema 6 42Ejemplo 23 43Ejemplo 24 43Teorema 7 44Definición 25 44Teorema 8 45
Enrique R. AznarDpto. de Álgebra
Página web personal
Página de Abertura
Contenido
JJ II
J I
Página 5 de 63
Atrás
Pantalla grande/pequeña
Cerrar
Lema 12 46Ejemplo 25 47
12. Apéndice 1: Rectas de regresión 48Ejemplo 26 51
13. Apéndice 2: Correlación y rectas de regresión 54Teorema 9 55Teorema 10 56Ejemplo 27 56
14. Ejercicios. 57Ejercicio 1 57Ejercicio 2 57Ejercicio 3 57Ejercicio 4 58Ejercicio 5 58Ejercicio 6 58Ejercicio 7 58Ejercicio 8 59Ejercicio 9 59Ejercicio 10 59
15. Test de repaso. 60
Enrique R. AznarDpto. de Álgebra
Página web personal
Página de Abertura
Contenido
JJ II
J I
Página 6 de 63
Atrás
Pantalla grande/pequeña
Cerrar
1. PRODUCTOS ESCALARES.
Dado un esp. vect. V , real (sobre el cuerpo R), y dada una aplicación < , >:V ×V → R, denotada a veces (en notación infija) como < u, v >= u • v
Definición 1. Decimos que es un producto escalar si verifica para todou,u1,u2, v ∈V y todo λ ∈ K
1) Definida positiva: u •u ≥ 0 y u •u = 0 ⇐⇒ u = 02) Conmutativa: u • v = v •u3) Distributiva: (u1 +u2)• v = u1 • v +u2 • v4) Lineal: λu • v = λ(u • v)
Dado un producto escalar, por la distributiva, se tiene que
0•u = (0+0)•u = 0•u +0•u =⇒ 0•u = 0
Por la conmutativa, también 0•u = u •0 = 0Por la distributiva y lineal, además se tiene
(λ1u1 +λ2u2)• v = (λ1u1)• v + (λ2u2)• v =λ1(u1 • v)+λ2(u2 • v)
Este es el primer caso, de una inducción, para demostrar el siguiente
Lema 1. Dado un producto escalar en V , se verifica que
(λ1u1 +·· ·+λr ur )• (µ1v1 +·· ·+µs vs) =∑i jλiµ j (ui • v j )
Enrique R. AznarDpto. de Álgebra
Página web personal
Página de Abertura
Contenido
JJ II
J I
Página 7 de 63
Atrás
Pantalla grande/pequeña
Cerrar
Demostración: Por la conmutativa, basta demostrar el llamado paso de lainducción, en uno de los factores:
(λ1u1 +·· ·+λr ur )• v = (λ1u1 +·· ·+λr−1ur−1)• v +λr (ur • v) ==λ1(u1 • v)+·· ·+λr−1(ur−1 • v)+λr (ur • v) �
Se puede definir mas de un producto escalar. Por ejemplo, para V =R2
Ejemplo 1. Para u = (x1, x2), v = (y1, y2) ∈R2, el producto definido por
u • v = 2x1 y1 +5x2 y2
es un producto escalar. En efecto, basta calcular el producto matricial
(x1, x2)
(2 00 5
)(y1
y2
)= 2x1 y1 +5x2 y2 = u • v
Recordar que el producto de matrices es distributivo y lineal.Que el producto de números reales es conmutativo.Que siempre, la suma de positivos es positiva
u •u = 2x21 +5x2
2 ≥ 0
Y finalmente que, los positivos sólo se anulan cuando son cero
u •u = 2x21 +5x2
2 = 0 ⇐⇒ x1 = 0 = x2
Así, dados números reales positivos a1, . . . , an ∈R+. En V =Rn se tiene que
Lema 2. El producto definido por u • v = a1x1 y1 +·· ·+an xn yn es escalar.
Enrique R. AznarDpto. de Álgebra
Página web personal
Página de Abertura
Contenido
JJ II
J I
Página 8 de 63
Atrás
Pantalla grande/pequeña
Cerrar
Demostración: Basta razonar que
(x1, . . . , xn)
a1 . . . 0... . . . ...0 . . . an
y1
...y2
= a1x1 y1 +·· ·+an xn yn = u • v �
En particular, en V =Rn , con la matriz identidad
Definición 2. Se define el producto escalar usual o estandar como
u • v = x1 y1 +·· ·+xn yn = (x1, . . . , xn)
1 . . . 0... . . . ...0 . . . 1
y1
...y2
Dado un esp. vect. real, V , y < , >: V ×V → R un producto escalar
Definición 3. Decimos que (V ,< , >) define un espacio vectorial euclídeo.
Ejemplo 2. En el esp. vect. de todos los polinomios reales de grado menoro igual que n, ∀p(x), q(x) ∈ Poln(R), el producto definido por
< p(x), q(x) > =∫ 1
0p(x)q(x)d x
es un producto escalar ya que por las propiedades (aditiva y lineal) de laintegral definida este producto es distributivo y lineal.Como el producto de polinomios es conmutativo también lo es este producto.
Enrique R. AznarDpto. de Álgebra
Página web personal
Página de Abertura
Contenido
JJ II
J I
Página 9 de 63
Atrás
Pantalla grande/pequeña
Cerrar
Finalmente, por la interpretación geométrica de la integral definida como elárea (con signo) sustentada entre la curva y el eje x. Se tiene que
< p(x), p(x) > =∫ 1
0p(x)2d x ≥ 0
ya que la gráfica de la función y = p(x)2 está sobre el eje x.Además, su área es cero sólo cuando coincida con el eje x.O sea, cuando p(x)2 = 0 en cuyo caso p(x) = 01
Ejemplo 3. En el esp. vect. de las matrices cuadradas reales, ∀A,B ∈Mn(R), el producto definido por
< A, B > = tr (AB t ) =n∑
i , j=1ai j bi j
es un producto escalar por la distributiva del producto de matrices, porque
< A, B > = tr (AB t ) =n∑
i , j=1ai j bi j =
n∑j ,i=1
bi j ai j = tr (B At ) = < B , A >
Por ejemplo, para las matrices A = (1 11 1
)y B = (
1 −11 −1
)tr (AB t ) = tr
(2 −22 −2
)= 2−2 = 0 = tr
(0 00 0
)= tr (B At )
y porque < A, A > = tr (A At ) =∑ni , j=1 a2
i j > 0 salvo que A = 0.
1Por reducción al absurdo, basta considerar el coeficiente líder.
Enrique R. AznarDpto. de Álgebra
Página web personal
Página de Abertura
Contenido
JJ II
J I
Página 10 de 63
Atrás
Pantalla grande/pequeña
Cerrar
2. MATRICES MÉTRICAS O DE GRAM.
Sea (V ,< , >) un espacio vectorial euclídeo de dimensión finita y B = {u1, . . . ,un}una base de V . A los productos escalares, de los vectores de la base
Definición 4. Los denotamos por gi j =< ui , u j >∈R.Llamamos matriz de Gram o métrica2 a la matriz G = (gi j ).
Por la propiedad conmutativa del producto escalar, se tiene
gi j = ui •u j = u j •ui = g j i
Lema 3. Toda matriz métrica es una matriz simétrica real.
Ejemplo 4. En R2, con el producto escalar usual y para la base B = {u1,u2},con u1 = (1,1), u2 = (1,2) se tiene
G =(1 11 2
)(1 11 2
)=
(u1 •u1 u1 •u2
u2 •u1 u2 •u2
)=
(2 33 5
)O sea, G = P t P , donde P = (
1 11 2
)Un ejemplo con producto escalar no usual es
2del esp. euclídeo respecto de la base B
Enrique R. AznarDpto. de Álgebra
Página web personal
Página de Abertura
Contenido
JJ II
J I
Página 11 de 63
Atrás
Pantalla grande/pequeña
Cerrar
Ejemplo 5. En el esp. vect., Pol1(R), con el producto definido en el Ej. 2Para la base de monomios estandar B = {1, x} se tiene
< 1, 1 > =∫ 1
0d x = x
]1
0= 1, < 1, x > =
∫ 1
0xd x = x2
2
]1
0= 1
2= 0.5
< x, x > =∫ 1
0x2d x = x3
3
]1
0= 1
3= 0.3
Luego, su matriz de Gram es G =(
1 0.50.5 0.3
)
Si X =( x1
...xn
), Y =
( y1
...yn
)son dos vectores, referidos a la base B = {u1, . . . ,un}.
Por las propiedades distributiva y lineal de un producto escalar, se tiene
x•y = (x1u1+·· ·+xnun)•(y1u1+·· ·+ynun) =n∑
i , j=1xi y j (ui•u j ) =
n∑i , j=1
xi y j gi j
escrito matricialmente
x • y = (x1, . . . , xn)
g11 . . . g1n... . . . ...
gn1 . . . gnn
y1
...yn
= X tGY
A x • y = X tGY la llamamos la expresión matricial del producto escalar.
Enrique R. AznarDpto. de Álgebra
Página web personal
Página de Abertura
Contenido
JJ II
J I
Página 12 de 63
Atrás
Pantalla grande/pequeña
Cerrar
Ejemplo 6. Para Pol1(R), con el producto definido en el Ej. 2, se tiene
x • y = X tGY = (x1, x2)
(1 0.5
0.5 0.3
)(y1
y2
)= x1 y1 +0.5x1 y2 +0.5x2 y1 +0.3x2 y2
Dada una matriz simétrica real, G , de orden n, decimos que
Definición 5. G es semidefinida positiva3 si X tG X ≥ 0, para todo X ∈Rn .
Definición 6. G es definida positiva (d.p.) si X tG X > 0, ∀X ∈Rn − {0}.
Por definición, toda matriz métrica G es definida positiva.Recíprocamente, por las propiedades de la aritmética, toda matriz d.p. defineun producto escalar x • y = X tGY . Por tanto
Lema 4. Una matriz es d.p. si y sólo si es una matriz métrica.
3. CONGRUENCIA DE MATRICES.
Pero puede haber muchas matrices d.p. correspondientes al mismo producto.Así, si tenemos un producto escalar y dos bases B y B ′ de Rn , tenemos unasecuaciones del cambio de base X = P X ′ y dos matrices métricas asociadas
x • y = X tGY = X ′tG ′Y ′
3Algunos autores la llaman definida no negativa.
Enrique R. AznarDpto. de Álgebra
Página web personal
Página de Abertura
Contenido
JJ II
J I
Página 13 de 63
Atrás
Pantalla grande/pequeña
Cerrar
pero entonces
x • y = X tGY = (P X ′)tG(PY ′) = X ′t (P tGP )Y ′
de donde G ′ = P tGP . Como el recíproco es inmediato, tenemos
Lema 5. G ′ y G definen el mismo producto si y sólo si G ′ = P tGP .
Dadas dos matrices cuadradas decimos que
Definición 7. G y G ′ son congruentes si existe P regular tal que G ′ = P tGP .
Por tanto, G ′ y G definen el mismo producto si y sólo si son congruentes.Y existen infinitas matrices d.p. que definen el mismo producto escalar.
En realidad, veremos que esencialmente toda matriz d.p. corresponde alproducto escalar usual. O sea, que siempre existe T regular tal que G = T t T .
Si T es una matriz triangular superior con todos los elementos de su diagonalprincipal positivos. La descomposición anterior es única4 y la llamamos
Definición 8. G = T t T es la descomposición de Cholesky de G .
4Si T t1 T1 = T t
2 T2 ⇐⇒ (T1T −12 )t = T2T −1
1 pero T1T −12 = (T2T −1
1 )−1 es triangular superiorcon elementos en la diagonal positivos, lo mismo que T2T −1
1 . Finalmente, (T1T −12 )t será
triangular inferior y por tanto (T1T −12 )t = T2T −1
1 = I y por tanto la unicidad T1 = T2.
Enrique R. AznarDpto. de Álgebra
Página web personal
Página de Abertura
Contenido
JJ II
J I
Página 14 de 63
Atrás
Pantalla grande/pequeña
Cerrar
Ejemplo 7. Para Pol1(R), con el producto definido en el Ej. 2, para la basede monomios estandar B = {1, x} su matriz de Gram era
G =(
1 1/21/2 1/3
)pero para la base B ′ = {1,
p3(2x −1)} su matriz métrica es G ′ = I ya que
g ′11 =
∫ 1
0d x = 1, g ′
12 =∫ 1
0
p3(2x −1)d x = 0, g ′
22 =∫ 1
03(2x −1)2d x = 1
Como la matriz del cambio de B ′ a B es P =(
1 −p30 2
p3
)se tiene la congruencia(
1 00 1
)= I =G ′ = P tGP =
(1 0
−p3 2p
3
)(1 1/2
1/2 1/3
)(1 −p30 2
p3
)si despejamos la matriz inicial, obtenemos G = (P t )−1P−1 = T t T . O sea
G =(
1 1/21/2 1/3
)=
(1 0
−p3 2p
3
)−1 (1 −p30 2
p3
)−1
=(
1 01/2 1/(2
p3)
)(1 1/20 1/(2
p3)
)donde T =
(1 1/20 1/(2
p3)
)y G = T t T es la descomposición de cholesky de G .
Como en el ejemplo, veremos que para toda matriz G d.p. se tiene queG = T t T ⇐⇒ P tGP = I con P = T −1. O sea, existe una base respecto a lacual la matriz de la métrica es la identidad. Así, definimos
Definición 9. G es diagonalizable por congruencia si ∃P tal que I = P tGP .
Enrique R. AznarDpto. de Álgebra
Página web personal
Página de Abertura
Contenido
JJ II
J I
Página 15 de 63
Atrás
Pantalla grande/pequeña
Cerrar
4. MATRICES GRAMMIANAS.
Dada una matriz rectangular real arbitraria
A =
a11 . . . a1n... . . . ...
am1 . . . amn
podemos calcular el producto escalar usual, ci • c j , de sus columnas. Así
Definición 10. Llamamos matriz grammiana de A al producto
At A =
c1 • c1 . . . c1 • cn... . . . ...
cn • c1 . . . cn • cn
=G
A veces, se dice que G es la grammiana5 de los vectores c1, . . . ,cn .
Una grammiana no cambia el espacio nulo de la matriz. O sea,
Lema 6. N (A) = N (At A) para toda matriz, A ∈ Mmxn(R).
Demostración: Dado un vector X =( x1
...xn
)claramente se tiene que AX = 0
implica que At AX = 0.
5Respecto del producto escalar usual.
Enrique R. AznarDpto. de Álgebra
Página web personal
Página de Abertura
Contenido
JJ II
J I
Página 16 de 63
Atrás
Pantalla grande/pequeña
Cerrar
Recíprocamente, si At AX = 0, llamando Y = AX =( y1
...yn
), se tiene que
y21 +·· ·+ y2
n = Y t Y = X t At AX = 0 =⇒ y1 = ·· · = yn = 0
Por tanto, AX = Y = 0 y los dos espacios nulos coinciden. �
Como la dimensión de un espacio nulo mas la dimensión del espacio decolumnas suman n, para cualquier matriz A ∈ Mmxn(R), se tiene que
di m(C (A)) = n −di m(N (A)) = n −di m(N (At A)) = di m(C (At A))
Como la dimensión del espacio de columnas coincide con el rango, se tiene
Lema 7. rango(A) = rango(At A).
Intercambiando los papeles de A y At , también tenemos
rango(At ) = rango(A At )
Por tanto, dada cualquier matriz A ∈ Mmxn(R), se tiene que
Teorema 1. rango(A At ) = rango(At ) = rango(A) = rango(At A).
Cuando consideramos grammianas de vectores arbitrarios {c1, . . . ,cn} ∈ Rm ,donde cada c j = (a1 j , . . . , am j ) son las columnas de la matriz
A =
a11 . . . a1n... . . . ...
am1 . . . amn
Enrique R. AznarDpto. de Álgebra
Página web personal
Página de Abertura
Contenido
JJ II
J I
Página 17 de 63
Atrás
Pantalla grande/pequeña
Cerrar
y G = At A es su grammiana, hemos demostrado que
Corolario 1. rango(G) da el número de vectores l.i. en el conjunto {c1, . . . ,cn}.Por tanto, det(G) 6= 0 si, y sólo si {c1, . . . ,cn} son l.i. �
Este es un criterio general para comprobar la independencia.O sea, cuando una grammiana G = At A, cuadrada nxn, tiene rango n.Se tiene que n ≤ m y la matriz A es de rango pleno por columnas, (r.p.p.c.)
Además, una matriz grammiana siempre es semidefinida positiva ya que
X tG X = X t At AX = Y t Y = y21 +·· ·+ y2
n ≥ 0
Además, como Y t Y = X t At AX = 0 implica Y = AX = 0.Si los vectores columnas de A son l.i. entonces X = 0.O sea, dada una matriz grammiana G = At A, hemos demostrado que
Corolario 2. det(G) 6= 0 ⇐⇒ A es de r.p.p.c. ⇐⇒G es d.p.6 �
Aunque A no sea de rango pleno. Se tienen consecuencias interesantes.Claramente, para todo X ∈Rn , At AX ∈C (At ). Por tanto, C (At A) ⊆C (At )
Por el teorema 1, di m(C (At A)) = di m(C (At ))y los dos subespacios de columnas son iguales
C (At A)) =C (At )
6Veremos el recíproco, si G es d.p. entonces existe A tal que G = At A y det(G) > 0
Enrique R. AznarDpto. de Álgebra
Página web personal
Página de Abertura
Contenido
JJ II
J I
Página 18 de 63
Atrás
Pantalla grande/pequeña
Cerrar
Así, dada cualquier matriz A ∈ Mmxn(R) y cualquier vector B ∈Rn , se tiene
Corolario 3. El sistema lineal de ecuaciones At AX = At B es compatible. �
Ejemplo 8. El s.l. de ecuaciones
x + y + 5z + t = 12x − y + 3z − 2t = 1
3x + 4z − t = 1
es incompatible ya que los rangos de sus matrices
A =1 1 1 1
2 −1 3 −23 0 4 −1
, (A|B) =1 1 1 1 1
2 −1 3 −2 13 0 4 −1 1
son 2 y 3 respectivamente.Sin embargo, el sistema At AX = At B , tiene por matrices
At A =
14 −1 19 −6−1 2 −2 319 −2 26 −9−6 3 −9 6
, (At A|At B) =
14 −1 19 −6 6−1 2 −2 3 019 −2 26 −9 8−6 3 −9 6 −2
con el mismo rango 2. Por tanto, este sistema es compatible indeterminadocon infinitas soluciones dependiendo de dos parámetros
(x, y, z, t ) = (λ, µ,2
5− 4λ
5,
4
15− λ
5− 4µ
5)
Enrique R. AznarDpto. de Álgebra
Página web personal
Página de Abertura
Contenido
JJ II
J I
Página 19 de 63
Atrás
Pantalla grande/pequeña
Cerrar
5. NORMA DE UN VECTOR.
Definición 11. Dado (V ,•) un espacio vectorial euclídeo y u ∈V .Como u•u ≥ 0, llamamos norma o módulo de u al número real no negativo
‖u‖ =pu •u
Ejemplo 9. En V =Rn , con el producto escalar usual, se tiene
‖(x1, . . . , xn)‖ =√
x21 +·· ·+x2
n
Así, para a ∈R, su norma usual coincide con su valor absoluto, denotado
|a| ={
a, Si a ≥ 0−a, Caso contrario
Por la definición de producto escalar, se obtienen de forma inmediata las
Lema 8. [Propiedades de la norma]
1) ‖u‖ ≥ 02) ‖u‖ = 0 ⇐⇒ u = 03) ‖λu‖ = |λ|‖u‖
Ejemplo 10. En el esp. vect. euclídeo del ejemplo 2.Dado un polinomio arbitrario p(x) ∈ Poln(R), su norma es
‖p(x)‖ =√∫ 1
0p(x)2d x
Enrique R. AznarDpto. de Álgebra
Página web personal
Página de Abertura
Contenido
JJ II
J I
Página 20 de 63
Atrás
Pantalla grande/pequeña
Cerrar
Definición 12. Decimos que u es un vector unitario si ‖u‖ = 1.
Siempre podemos obtener un vector unitario, a partir de uno arbitrario∥∥∥∥ u
‖u‖∥∥∥∥= 1
‖u‖‖u‖ = 1
Dado (V ,•), ∀u, v ∈V se verifican ciertas desigualdades, la primera es
Teorema 2. [Desigualdad de Cauchy-Bunyakowski-Schwartz]
|u • v | < ‖u‖‖v‖Salvo que u =λv . O uno de ellos sea cero. En cuyo caso, |u • v | = ‖u‖‖v‖.
Demostración: Claramente, si v = 0 o u = 0 o u =λv se verifica la igualdad.Si v 6= 0, entonces ‖v‖2 = v • v > 0.Además, para todo λ ∈R, por la definición de producto escalar, se tiene
u •u −2λ(u • v)+λ2(v • v) = (u −λv)• (u −λv) > 0
Salvo que u −λv = 0 ⇐⇒ u =λv . Ahora, tomando λ= u•v‖v‖2
u •u −2(u • v)2
‖v‖2+ (u • v)2
‖v‖2= ‖u‖2 − (u • v)2
‖v‖2> 0
multiplicando por ‖v‖2 = v • v > 0, se obtiene
‖u‖2‖v‖2 − (u • v)2 > 0 ⇐⇒ (u • v)2 < ‖u‖2‖v‖2
Enrique R. AznarDpto. de Álgebra
Página web personal
Página de Abertura
Contenido
JJ II
J I
Página 21 de 63
Atrás
Pantalla grande/pequeña
Cerrar
Finalmente, extrayendo raíces cuadradas positivas
|u • v | < ‖u‖‖v‖Ahora, usando esta desigualdad, se tiene
‖u + v‖2 = (u + v)• (u + v) = u •u +2(u • v)+ v • v =≤ ‖u‖2 +2|u • v |+‖v‖2 < ‖u‖2 +2‖u‖‖v‖+‖v‖2 = (‖u‖+‖v‖)2
De nuevo, extrayendo raíces cuadradas positivas, hemos demostrado la
Teorema 3. [Desigualdad triangular o de Minkowski]‖u + v‖ < ‖u‖+‖v‖
Salvo que u =λv . O uno de ellos sea cero. En cuyo caso, ‖u+v‖ = ‖u‖+‖v‖.
Un triangulo, en R2, se interpreta como la suma de dos vectores.Por tanto, sus longitudes deben satisfacer la desigualdad triangular. Así,tres lados que no satisfacen dicha desigualdad no pueden formar triángulo7.
Con el producto escalar usual, se tiene para todo a1, . . . , an ,b1, . . . ,bn ∈R|a1b1 +·· ·+anbn | ≤
√a2
1 +·· ·+a2n
√b2
1 +·· ·+b2n√
(a1 +b1)2 +·· ·+ (an +bn)2 ≤√
a21 +·· ·+a2
n +√
b21 +·· ·+b2
n
7Por ejemplo, 2, 3, 6 no forman triángulo. Tampoco 2, 3, 5.Tampoco pueden estar alineados tres puntos si ‖u + v‖ 6= ‖u‖+‖v‖.
Enrique R. AznarDpto. de Álgebra
Página web personal
Página de Abertura
Contenido
JJ II
J I
Página 22 de 63
Atrás
Pantalla grande/pequeña
Cerrar
5.1. Aplicaciones estadísticas. Si se miden dos características (variables)en una muestra de n objetos, se obtienen dos series de números reales {x1, . . . , xn}y {y1, . . . , yn} que se pueden considerar como vectores de Rn
x = (x1, . . . , xn), y = (y1, . . . , yn)
si se calculan sus medias x = (x1 + ·· · + xn)/n, y = (y1 + ·· · + yn)/n y seconsideran los vectores de sus desviaciones respecto de sus medias
u = x − x · 1 = (x1 − x, . . . , xn − x), v = y − y · 1 = (y1 − y , . . . , yn − y)
aplicando la desigualdad de Cauchy-Bunyakowski-Schwartz, se obtiene(∑i
(xi − x)(yi − y)
)2
= (u · v)2 ≤ ‖u‖2‖v‖2 =∑i
(xi − x)2∑
i(yi − y)2
equivalentemente
r 2 =(∑
i (xi − x)(yi − y))2∑
i (xi − x)2 ∑i (yi − y)2
≤ 1 ⇐⇒ −1 ≤ r ≤ 1
donde
−1 ≤ r = u
‖u‖ ·v
‖v‖ = 1
n
n∑1
(xi − x)(yi − y)
σ1σ2= 1
n −1
n∑1
(xi − x)(yi − y)
s1s2≤ 1
es llamado el coeficiente de correlación de Pearson. Cuando se miden másde dos, se usan subíndices, r12, para denotar las variables que se correlacio-nan. Claramente, ri j = r j i , ri i = 1 y se obtiene la matriz de correlación.
Enrique R. AznarDpto. de Álgebra
Página web personal
Página de Abertura
Contenido
JJ II
J I
Página 23 de 63
Atrás
Pantalla grande/pequeña
Cerrar
Como el caso límite de la desigualdad de Cauchy (la igualdad) se da cuandouno de los vectores es cero u = 0 o bien cuando uno es múltiplo del otrou =λv . En ambos casos, el coeficiente de correlación de Pearson vale ±1.
Por tanto, si el coeficiente de correlación de dos variables está cercano a -1o 1, ambas variables después de restar sus medias están próximas a ser unamúltiplo de la otra y se dice que están correlacionas. Aunque
Si en la fórmula del coeficiente de Pearson, eliminamos los denominadoresde las cuasivarianzas, se obtienen las covarianzas muestrales
si j = 1
n −1
n∑1
(xi − x)(yi − y) = 1
n −1u · v = 1
n −1ut v
Así, restando sus medias, A = X − X , se obtiene la matriz de covarianzas
S = (si j ) = 1
n −1At A
Las covarianzas también son una medida de la dependencia entre variablespero al no estar normalizadas sus columnas (de A) no está acotado su valor.
Ejemplo 11. Si tenemos 2 variables, x, y , que se miden 4 veces según losvalores de la matriz y calculamos sus medias
X =
1 10 −21 10 −2
=⇒ (x, y) = (1
2, −1
2)
Enrique R. AznarDpto. de Álgebra
Página web personal
Página de Abertura
Contenido
JJ II
J I
Página 24 de 63
Atrás
Pantalla grande/pequeña
Cerrar
Uniformizando las variables, podemos obtener la matriz de covarianzas
A = X −
1/2 −1/21/2 −1/21/2 −1/21/2 −1/2
= 1
2
1 3
−1 −31 3
−1 −3
=⇒ S = 1
3At A = 1
3
(1 33 9
)
Si ahora, normalizamos la matriz A, dividiendo por la norma de cada columna,‖u‖ = 1
2
√12 + (−1)2 +12 + (−1)2 = 1, ‖v‖ = 1
2
√32 + (−3)2 +32 + (−3)2 = 3,
obtenemos la matriz de correlaciones R (de Pearson)
Y = 1
2
1 1
−1 −11 1
−1 −1
=⇒ R = Y t Y =(1 11 1
)=
(1 11 1
)
donde observamos, r12 = 1, la total dependencia entre ambas variables8.También, observamos que las cuasivarianzas de las dos columnas son
s1 =ps11 = 1/
p3, s2 =p
s22 =p
9/3 =p3
Y la matriz estandarizada es(
xi − xi
si
)= 1
2
p
3 3/p
3−p3 −3/
p3p
3 3/p
3−p3 −3/
p3
=p
32
1 1
−1 −11 1
−1 −1
8En A, las columnas son proporcionales y los puntos pertenecen a la recta y− y = 3(x−x).
Enrique R. AznarDpto. de Álgebra
Página web personal
Página de Abertura
Contenido
JJ II
J I
Página 25 de 63
Atrás
Pantalla grande/pequeña
Cerrar
Como en el ejemplo, cuando el coeficiente de correlación vale 1 o -1, setiene que |u ·v | = ‖u‖‖v‖ y por tanto o bien los vectores u = x − x, v = y − yson proporcionales, en cuyo caso se obtiene una recta, y − y = λ(x − x), dependiente λ. O bien, uno de ellos es cero, y se obtiene o una recta horizontalx − x = 0, o una vertical y − y = 0.
En cualquiera de los 3 casos, si dibujamos los valores medidos de x, y comopuntos de R2, todos ellos se encuentran sobre una recta9.
En general, r 2 < 1 y los puntos no caen en una recta, pero cuanto más próx-imo r esté a 1 o -1 más se aproximan los puntos a su recta de regresión.
El coeficiente de correlación de Pearson no es robusto ni resistente. No es ro-busto porque variables cuya dependencia sea no lineal no dan un coeficiente±1 o muy próximo a ±1. No es resistente porque puede dar valores cercanosa ±1 sin que exista una dependencia clara entre las variables.
Si se cambian los datos por sus rangos respectivos10 y se calcula el coefi-ciente de correlación para los nuevos valores, se obtiene un coeficiente ro-busto y resistente, llamado coeficiente de correlación de Spearman.
Por tanto, el coeficiente de Spearman es un caso particular del de Pearson yestá comprendido entre -1 y 1. En el ejemplo anterior, ambos valen 1.
9Que coincide con la recta de regresión de la nube de puntos.10En caso de que un dato se repita varias veces en su columna, se le asigna la media
aritmética de sus rangos a cada uno de ellos.
Enrique R. AznarDpto. de Álgebra
Página web personal
Página de Abertura
Contenido
JJ II
J I
Página 26 de 63
Atrás
Pantalla grande/pequeña
Cerrar
6. CONCEPTO DE ÁNGULO. VECTORES ORTOGONALES
Dados u, v ∈V , de un esp. vect. euclídeo. Por la desigualdad de Schwartz
0 ≤ |u • v |‖u‖‖v‖ ≤ 1
equivalentemente, sin valores absolutos, se obtienen las desigualdades
−1 ≤ u • v
‖u‖‖v‖ ≤ 1
Como la función coseno, cos :R→ [−1,1] es sobreyectiva, ∃α ∈R tal que
cos(α) = u • v
‖u‖‖v‖Además, por las propiedades de la función coseno, ese número real α esúnico con la condición de que pertenezca al intervalo cerrado [0,π]. Así
Definición 13. A ese único α(u, v) ∈ [0,π], lo llamamos ángulo entre u y v.
Con esta definición, α(u, v) =α(v,u). Además, para cualquier producto
u • v = ‖u‖‖v‖cos(α)
y el producto escalar es negativo si, y sólo si su ángulo es obtuso (π2 ≤α≤π)
Enrique R. AznarDpto. de Álgebra
Página web personal
Página de Abertura
Contenido
JJ II
J I
Página 27 de 63
Atrás
Pantalla grande/pequeña
Cerrar
Ejemplo 12. Dados u = (x1, . . . , xn), v = (y1, . . . , yn) ∈Rn , su ángulo11 es
α(u, v) = arccos
x1 y1 +·· ·+xn yn√x2
1 +·· ·+x2n
√y2
1 +·· ·+ y2n
Si llamamos ei = (0, . . . ,0,1,0, . . . ,0) al i -ésimo vector de la base canónica.Dado un vector arbitrario u = (x1, . . . , xn) ∈Rn
Definición 14. Llamamos i -ésimo coseno director de u a
cos(αi ) = cos(u,ei ) = u.ei
‖u‖ = xi√x2
1 +·· ·+x2n
O sea, es el coseno del ángulo entre u y el ei de la base canónica.
Dado u = (x1, . . . , xn), como para todo i , xi = ‖u‖cos(αi ), se tiene
u = ‖u‖ (cos(α1), . . . ,cos(αn)) =⇒‖ (cos(α1), . . . ,cos(αn))‖ = 1
cos(α1)2 +·· ·+cos(αn)2 = 1
Y el vector unitario de los cosenos directores que marca la dirección de uu
‖u‖ = (cos(α1), . . . ,cos(αn))
es llamado el normalizado de u (de norma uno).11Con la norma usual.
Enrique R. AznarDpto. de Álgebra
Página web personal
Página de Abertura
Contenido
JJ II
J I
Página 28 de 63
Atrás
Pantalla grande/pequeña
Cerrar
Ejemplo 13. Dada la bisectriz del primer cuadrante, u = (1,1) ∈R2,el vector de sus cosenos directores es
u
‖u‖ = (cos(α),cos(α)) =(
1p2
,1p2
)Por tanto, el ángulo que forma con cualquiera de los ejes es α= 45◦.
Ejemplo 14. Dada la bisectriz del primer ortante, u = (1, . . . ,1) ∈Rn
u
‖u‖ = (cos(α), . . . ,cos(α)) =(
1pn
, . . . ,1pn
)Por tanto, el ángulo que forma con cualquiera de los ejes es α=ArcCos( 1p
n).
Para n = 3 es 54.7356◦, para n = 4 es 60◦, y en general tiende a 90◦.
Definición 15. Llamamos vector 1 o vector sumador a ese vector bisectriz
1 = 1n = e1 +·· ·+en = (1, . . . ,1) ∈Rn
Ya que, dado X = (x1, . . . , xn) ∈Rn , escribiendo por columnas, se tiene
1t X = x1 +·· ·+xn
El ángulo entre vectores es invariante a su escala, ya que si λ> 0
cos(α) = λ(u • v)
λ‖u‖‖v‖ = λu • v
‖λu‖‖v‖ = u •λv
‖u‖‖λv‖Lema 9. α(u, v) =α(λu, v) =α(u,λv), para todo u, v ∈Rn y λ ∈R+
Enrique R. AznarDpto. de Álgebra
Página web personal
Página de Abertura
Contenido
JJ II
J I
Página 29 de 63
Atrás
Pantalla grande/pequeña
Cerrar
Definición 16. Decimos que dos vectores u, v son ortogonales12, u⊥v , sisu ángulo es α(u, v) = 90◦. Equivalentemente, si u •v = ‖u‖‖v‖cos(90◦) = 0
Como ‖u + v‖2 = (u + v)• (u + v) = u •u +2(u • v)+ v • v , se tiene
Teorema 4. [de Pitágoras]13 u⊥v ⇐⇒ ‖u + v‖2 = ‖u‖2 +‖v‖2
Así, con la norma usual, los vectores canónicos son ortogonales y unitarios
ei •e j = δi j ={
1 ·1 = 1 si i = j
0 ·1+1 ·0 = 0 Caso contrario
Definición 17. Decimos que una base es ortogonal si sus vectores son or-togonales. Decimos que es ortonormal si además son vectores unitarios.
La base canónica es una base ortonormal respecto al producto usual.Si (V ,•) es un esp. vect. euclídeo, y B = {u1, . . . ,un} es una base de V .Entonces, por la definicíón de su matriz G de Gram
1) B es ortogonal si, y sólo si su matriz G es diagonal.2) B es ortonormal si, y sólo si su matriz G = In es la identidad.
12Respecto a un producto escalar arbitrario.13Es cierto para cualquier dimensión y cualquier producto escalar.
Enrique R. AznarDpto. de Álgebra
Página web personal
Página de Abertura
Contenido
JJ II
J I
Página 30 de 63
Atrás
Pantalla grande/pequeña
Cerrar
Las bases ortonormales son computacionalmente buenas, ya que se tiene
u • v = X t I Y = (x1, . . . , xn)
( y1
...yn
)= x1 y1 +·· ·+xn yn
O sea, el producto escalar se calcula como el producto usual de Rn .
Ejemplo 15. En R2, con el producto escalar usual, la base B = {(1,1), (1,−1)}es ortogonal pero no ortonormal. Como la norma de ambos vectores es
p2,{(
1p2
,1p2
),
(1p2
,− 1p2
)}sus normalizados si forman una base ortonormal.
7. COEFICIENTES DE FOURIER. ORTONORMALIZACIÓN.
En (V ,•), dada una base ortonormal, B = {u1, . . . ,un}, y un vector arbitrariou =λ1u1 +·· ·+λnun , como los coeficientes, λi ∈R, son únicos se tiene
u j •u = u j • (λ1u1 +·· ·+λnun) =λ1 ·0+·· ·+λ j (u j •u j )+·· ·+λn ·0 =λ j
Así, para todo vector se verifica la igualdad u = (u1 •u)u1 +·· ·+ (un •u)un
Definición 18. Llamamos coeficientes de Fourier de un vector u, respectode una base ortonormal, a los productos λ j = u j •u, para j = 1, . . . ,n.
La expansión o igualdad de Fourier es u = (u1 •u)u1 +·· ·+ (un •u)un .
Enrique R. AznarDpto. de Álgebra
Página web personal
Página de Abertura
Contenido
JJ II
J I
Página 31 de 63
Atrás
Pantalla grande/pequeña
Cerrar
Si la base es sólo ortogonal, los coeficientes de Fourier son λ j = u j •u‖u j ‖ .
Si ahora calculamos la norma al cuadrado de u =λ1u1 +·· ·+λnun
‖u‖2 = u •u =λ21(u1 •u1)+·· ·+λ2
n(un •un) =λ21 +·· ·+λ2
n
obtenemos la llamada identidad de Parseval14
Ejemplo 16. En R2, con el producto escalar usual, y la base B = {(1,1), (1,−1)}ortogonal. El vector u = (2,3) se expresa de la forma
u = 5p2
(1,1)+ 1p2
(1,−1) = 5p2
u1 + 1p2
u2
Si ahora tenemos dos bases B y B ′, por el lema 5, sus matrices de Gram G ′ yG son congruentes. O sea, existe una matriz P regular tal que G ′ = P tGP .
Si además, ambas bases son ortonormales, se tiene G ′ =G = I . Por tanto
I =G ′ = P tGP = P t I P = P t P =⇒ P t = P−1
Definición 19. Decimos que P es una matriz ortogonal si P t = P−1.O sea, si su traspuesta coincide con su inversa.
Así, la matriz de cambio entre dos bases ortonormales es ortogonal.Además, si {u1, . . . ,uk } son vectores ortogonales (dos a dos) se tiene
λ1u1 +·· ·+λk uk = 0 =⇒ λi (ui •ui ) = 0•ui = 0 =⇒ λi = 0
14Demostrada en 1799, para series por Marc-Antoine Parseval.
Enrique R. AznarDpto. de Álgebra
Página web personal
Página de Abertura
Contenido
JJ II
J I
Página 32 de 63
Atrás
Pantalla grande/pequeña
Cerrar
ya que ‖ui‖2 = ui •ui > 0. O sea, hemos demostrado
Lema 10. Un conjunto de vectores ortogonales es siempre l.i.
Dividiendo por su norma, los vectores ortogonales se pueden normalizar.Así, se obtienen vectores ortonormales que generan el mismo U = L(u1, . . . ,uk ).
Si los {u1, . . . ,uk } son ya ortonormales, todo vector x ∈Rn se puede proyectarsobre U = L(u1, . . . ,uk ), de la siguiente forma
Definición 20. Llamamos proyección de x sobre U a la expansión de Fourier,pU (x) = c1u1 +·· ·+ck uk , donde ci = x •ui para cada i .
Si normalizamos el vector sumador, 1n = (1, . . . ,1), obtenemos1n
‖1n‖= 1np
n=
(1pn
, . . . ,1pn
)Por tanto, para calcular la proyección de un vector x = (x1, . . . , xn) sobre 1n ,el coeficiente de Fourier es
c = x • 1npn= x1 +·· ·+xnp
n
Ejemplo 17. La proyección de un vector x sobre U = L(1n) es el vector
pU (x) = c1np
n= x1 +·· ·+xn
n1n = x1n = (x, . . . , x)
llamado el vector de la media aritmética, porque x = x1+···+xnn .
Enrique R. AznarDpto. de Álgebra
Página web personal
Página de Abertura
Contenido
JJ II
J I
Página 33 de 63
Atrás
Pantalla grande/pequeña
Cerrar
Definición 21. Un vector x es ortogonal a U si x⊥u para todo u ∈U .
Si {u1, . . . ,uk } son ortonormales, y U = L(u1, . . . ,uk ). Entonces, para todo i
(x −pU (x))•ui = (x •ui )− ci (ui •ui ) = (x •ui )− ci = (x •ui )− (x •ui ) = 0
Así, (x −pU (x))⊥ui para todo vector x y todo i = 1, . . . ,k. Por tanto
Lema 11. (x −pU (x))⊥U para todo vector x. �
Dados {u1, . . . ,uk } ortonormales, y un vector x ∉ L(u1, . . . ,uk ),el vector x −pU (x) no es unitario. Si lo normalizamos
uk+1 =x −pU (x)
‖x −pU (x)‖lo podemos añadir al conjunto para obtener {u1, . . . ,uk ,uk+1} ortonormales.
Definición 22. Lo llamamos una transformación de Gram-Schmidt.
Partiendo de un único vector u1 6= 0, este es un proceso de ampliación queacaba encontrando una base ortonormal en n pasos.
Dado (V ,•) un esp. vect. euclídeo, se puede aplicar el proceso partiendo decualquier base, con n transformaciones de Gram-Schmidt.
Teorema 5. [de Gram-Schmidt]Cualquier base se puede transformar en una ortonormal.
Enrique R. AznarDpto. de Álgebra
Página web personal
Página de Abertura
Contenido
JJ II
J I
Página 34 de 63
Atrás
Pantalla grande/pequeña
Cerrar
Ejemplo 18. Para V = Pol1(R), con el producto definido en el Ej. 2, para labase de monomios estandar B = {1, x} su matriz de Gram era
G =(
1 1/21/2 1/3
)Vamos a hallar una base ortonormal de V , partiendo de B en dos pasos15.La primera transformación de Gram-Schmidt ya está hecha porque
‖u1‖2 = u1 •u1 = (1,0)
(1 1/2
1/2 1/3
)(10
)= 1
O sea, ‖u1‖ = 1 y el primer vector, v1 = u1, está normalizado.
El segundo vector u2 = (0,1), lo proyectamos sobre el primero calculando sucoeficiente de Fourier y restando v = u2 −pu1 (u2) = u2 − cu1
c = u2 •u1 = (0,1)
(1 1/2
1/2 1/3
)(10
)= (0,1)
(1
1/2
)= 1/2
v = u2 − cu1 = (0,1)−1/2(1,0) = (−1/2,1)
como ‖v‖2 = v • v = (−1/2,1)
(1 1/2
1/2 1/3
)(−1/21
)= (−1/2,1)
(0
1/12
)= 1/12
La segunda transformación de Gram-Schmidt es
v2 = v
‖v‖ =p12(−1
2,1) = (−p3,2
p3)
15Porque la dimensión es 2.
Enrique R. AznarDpto. de Álgebra
Página web personal
Página de Abertura
Contenido
JJ II
J I
Página 35 de 63
Atrás
Pantalla grande/pequeña
Cerrar
Por tanto, la matriz de cambio a la nueva base {(1,0), (−p3,2p
3)} es
P =(1 −p30 2
p3
)Con polinomios, la nueva base ortonormal es B ′ = {1,
p3(2x −1)}.
Ahora, si T = P−1, entonces P tGP = I ⇐⇒G = (P t )−1P−1 = T t T .
El proceso del ejemplo es completamente general. De forma que se tiene
Corolario 4. [de Choleski]Cualquier matriz d.p., G , tiene una descomposición de Cholesky y |G| > 0.
Demostración: Por Gram-Schmidt, basta hallar una nueva base ortonormal.Su matriz de cambio por columnas, P , es triangular superior. Su diagonalprincipal son reales positivos16. Y P tGP = I ⇒G = T t T ⇒|G| = |T |2 > 0.
Ejemplo 19. Dada la matriz A =1 1
0 20 1
Vamos a hallar la descomposición de Cholesky de su grammiana At A.Como el rango de A es 2, sus dos columnas son l.i.
Por 2, su matriz grammiana, G = At A =(1 11 6
), es d.p. y define una métrica.
16Lo asegura el proceso de Gram-Schmidt aplicado a la base canónica.
Enrique R. AznarDpto. de Álgebra
Página web personal
Página de Abertura
Contenido
JJ II
J I
Página 36 de 63
Atrás
Pantalla grande/pequeña
Cerrar
Así, el proceso de Gram-Schmidt, aplicado a la base canónica, tiene elprimer vector, v1 = e1, ya normalizado porque
‖e1‖2 = e1 •e1 = (1,0)
(1 11 6
)(10
)= 1
El segundo vector e2 = (0,1), lo proyectamos sobre el primero calculando sucoeficiente de Fourier y restando v = e2 −pe1 (e2) = e2 − ce1
c = e2 •e1 = (0,1)
(1 11 6
)(10
)= (0,1)
(11
)= 1
v = e2 − ce1 = (0,1)− (1,0) = (−1,1)
como ‖v‖2 = v • v = (−1,1)
(1 11 6
)(−11
)= (−1,1)
(05
)= 5
La segunda transformación de Gram-Schmidt es
v2 = v
‖v‖ = 1p5
(−1,1) = (− 1p5
,1p5
)
Por tanto, la matriz de cambio a la nueva base P =(
1 − 1p5
0 1p5
)y ya tenemos
P tGP = I =⇒ G = (P t )−1P−1, la descomposicón de Cholesky. O sea
G =(1 11 6
)=
(1 0
− 1p5
1p5
)−1 (1 − 1p
50 1p
5
)−1
=(1 01
p5
)(1 10
p5
)
Enrique R. AznarDpto. de Álgebra
Página web personal
Página de Abertura
Contenido
JJ II
J I
Página 37 de 63
Atrás
Pantalla grande/pequeña
Cerrar
8. ALGORITMOS DE GRAM-SCHMIDT.
Una regla empírica dice que el método mas claro o simple en teoría no es elmas directo o eficiente para calcularlo.
Esta regla se cumple en alguna medida para el proceso de Gram-Schimdt yde forma absoluta para la descomposición de Cholesky.
Así, para ortonormalizar un conjunto de vectores {u1, . . . ,um} ∈ Rn , en unciclo de m iteraciones, se puede hacer con dos algoritmos17.
Gram-Schimdt clásico: en la iteración i , se proyecta ui sobre el subespaciogenerado por los anteriores, se le resta su proyección y se normaliza.
Gram-Schimdt modificado: en la iteración i , se actualizan todos los vec-tores. Primero se normaliza el i -ésimo. Después, se actualizan los demás,proyectandolos sobre éste y restándoles su proyección.
Teóricamente, deben dar la misma salida. Cierto para artiméticas exactas18.Pero no cuando se usa arimética real en coma flotante (con punto decimal).
Aquí, el modificado es menos sensible a errores de redondeo que el clásico.Donde la diferencia se muestra es cuando los vectores ui son casi paralelos.
17Para n ≥ 3, las salidas dan diferentes vectores l.i.18Como la racional o cuando se usan radicales
Enrique R. AznarDpto. de Álgebra
Página web personal
Página de Abertura
Contenido
JJ II
J I
Página 38 de 63
Atrás
Pantalla grande/pequeña
Cerrar
Si ui = u +εei , con ε ∈R pequeño, la salida del clásico puede ser errónea.Mientras que la salida del algoritmo modificado suele ser correcta.
Por ejemplo, para el input (1,10−6,10−6), (1,10−6,0), (1,0,10−6), cuando seusa coma flotante, el clásico da error en el tercer vector y el modificado no.
Ejemplo 20. Para las columnas de la matriz A =1 1 2
0 1 00 1 1
usando coma flotante, los dos primeros vectores, para ambos, son iguales.
El tercer vector de la base ortonormal para el clásico es
(0.707107,−1.39452∗10−31,−0.707107)
mientras que es (0.707107,−9.42055∗10−16,−0.707107) en el modificado.El error en la segunda coordenada es menor para el modificado19.
9. ALGORITMO DE CHOLESKY.
Toda matriz d.p., G , tiene una descomposición de Cholesky (única).Pero la forma de demostrarlo mediante ortonormalización, de la base canónicasegún la métrica definida por G , no es eficiente20.
19En ambos, esta segunda coordenada es un error de redondeo.20En particular, requiere el cálculo de una matriz inversa.
Enrique R. AznarDpto. de Álgebra
Página web personal
Página de Abertura
Contenido
JJ II
J I
Página 39 de 63
Atrás
Pantalla grande/pequeña
Cerrar
Además, las matrices semidefinidas positivas también tienen una descom-posición de Cholesky aunque no definen una métrica.
Como un producto T t T con T triangular superior es muy simple de calculary permite inducción sobre el orden n de T . Permite un algoritmo directo,para hallar la descomposición de Cholesky de una matriz simétrica G = (ai j ).
1) Definimos t11 =pa11.
2) Actualizo la primera fila, t1 j = a1 j
t11para todo j = 2, . . . ,n.
3) Para cada i = 2, . . . ,n, ti i =√
ai i −∑i−1k=1 t 2
ki y para cada j = i +1, . . . ,n
ti j =ai j −∑i−1
k=1 tki tk j
ti i
Ejemplo 21. Dada la matriz A =1 1
0 20 1
vamos a hallar la descomposición
de Cholesky de su grammiana con el algoritmo anterior.
Su grammiana es G = At A =(1 11 6
). En primer lugar, t11 =p
1 = 1 y t12 =11 = 1. Finalmente, t22 =
√6− t 2
12 =p5. Como t21 = 0. Su descomposición
es
G =(1 11 6
)=
(1 01
p5
)(1 10
p5
)
Enrique R. AznarDpto. de Álgebra
Página web personal
Página de Abertura
Contenido
JJ II
J I
Página 40 de 63
Atrás
Pantalla grande/pequeña
Cerrar
10. DESCOMPOSICIÓN QR DE UNA MATRIZ.
Dada una matriz A =
a11 . . . a1n... . . . ...
am1 . . . amn
se puede ampliar una base de su
espacio de columnas C (A) = L(c1, . . . ,cn) ⊆∈Rm hasta una base de Rm .
Esta base se puede ortonormalizar por el proceso de de Gram-Schmidt paraobtener una nueva base B1 = {u1, . . . ,um} ortonormal de Rm .
Escritas por columnas las coordenadas de estos ui nos definen una matriz Qortogonal21, que nos da el cambio de base desde la canónica B = {e1, . . . ,em}hasta B1. O sea, tenemos unas ecuaciones de cambio de base
X =
x1...
xm
=
q11 . . . q1m... . . . ...
qm1 . . . qmm
y1
...ym
=QY
donde X son las coordenadas respecto de la canónica B e Y respecto de B1.
Por tanto, podemos transformar nuestra matriz original (que está referida ala canónica) con esta matriz de cambio. Ya que se tiene el producto
R =Q t A ⇐⇒ A =QR
21O sea, Q t =Q−1, ya que el producto por su traspuesta es la identidad.
Enrique R. AznarDpto. de Álgebra
Página web personal
Página de Abertura
Contenido
JJ II
J I
Página 41 de 63
Atrás
Pantalla grande/pequeña
Cerrar
donde R es una matriz triangular superior (siempre se obtiene cuando ortonor-malizamos) y Q es ortogonal. Una fatorización de este tipo es
Definición 23. A =QR es llamada una descomposición QR de A.
Ejemplo 22. Para transformar la matriz A =(3 5 66 1 5
)vamos a usar una
ortonormalización de una base ampliada de su espacio de columnas.
Comprobamos que sus dos primeras columnas c1 = (3,6), c2 = (5,1) son l.i.y le aplicamos el proceso de Gram-Schmidt.
Como la dimensión es 2, coinciden el clásico y el modificado y ambos danlos mismos dos vectores. Primero normalizo c1
col1 = c1
‖c1‖ = (0.447214,0.894427)
y luego
col2 = c2− (c2.col1)∗ col1
‖c2− (c2.col1)∗ col1‖ = (0.894427,−0.447214)
Estos dos vectores, por columnas nos definen una matriz ortogonal de cam-bio de base, que da la descomposición QR de A:
A =(3 5 66 1 5
)=
(0.447214 0.8944270.894427 −0.447214
)(6.7082 3.1305 7.15542
0 4.02492 3.1305
)
Enrique R. AznarDpto. de Álgebra
Página web personal
Página de Abertura
Contenido
JJ II
J I
Página 42 de 63
Atrás
Pantalla grande/pequeña
Cerrar
11. COMPLEMENTO ORTOGONAL.
Por la definición 21, dado un subesp. vect. U = L(u1, . . . ,uk ) y x ∈Rn
x⊥U ⇐⇒ x⊥u, ∀u ∈U ⇐⇒ x⊥ui ⇐⇒ x •ui = 0, ∀i = 1, . . . ,k
En general, si (V ,< , >) es un esp. vect. euclídeo de dimensión finita, U ⊆Vy tenemos dos vectores x, y ∈V tales que x⊥U , x⊥U . Entonces,
(λx +µy)•u =λ(x •u)+µ(y •u) =λ0+µ0 = 0
O sea, {x ∈V : x⊥U } = {x ∈V : x •u = 0, ∀u ∈U } es un subesp. vect. de V .
Definición 24. Lo denotamos U⊥ = {x ∈V : x⊥U } y lo llamamos el subesp.o complemento ortogonal de U .
Si U = L(u1, . . . ,uk ) y los {u1, . . . ,uk } son ortonormales, por el lema 10, pode-mos ampliar hasta una base ortonormal de V , B = {u1, . . . ,uk ,uk+1, . . . ,un}.
Entonces, ∀x ∈U⊥, los k primeros coeficientes de Fourier son cero
x = c1u1 +·· ·+ck uk + ck+1uk+a +·· ·+cnun =⇒ x •ui = ci = 0, ∀i = 1, . . . ,k
O sea, se tiene x = ck+1uk+a +·· ·+cnun ∈ L(uk+1, . . . ,un). Por tanto,
U⊥ = L(uk+1, . . . ,un) =⇒ di m(U⊥) = n −k
y además, U ∩U⊥ = {0}. O sea, hemos demostrado, ∀U ⊆V subesp. vect.
Teorema 6. di m(V ) = di m(U )+di m(U⊥) ⇐⇒ V =U ⊕U⊥.
Enrique R. AznarDpto. de Álgebra
Página web personal
Página de Abertura
Contenido
JJ II
J I
Página 43 de 63
Atrás
Pantalla grande/pequeña
Cerrar
Si los {u1, . . . ,uk } son l.i., podemos escribir de forma inmediata unas e.c. delcomplemento ortogonal de U = L(u1, . . . ,uk ).
x ∈U⊥ ⇐⇒
x •u1 = 0
...x •uk = 0
En particular, si U = L(u1), entonces U⊥ es un hiperplano22.
Ejemplo 23. En R3, con el producto escalar usual, dado U = L(u), conu = (1,1,1), su complemento ortogonal es el plano
U⊥ = {(x, y, z) ∈R3 : x + y + z = 0
}Ejemplo 24. En R3, con el producto escalar usual, dado U = L(u1,u2), conu1 = (1,1,1), u2 = (1,0,1), su complemento ortogonal es la recta
U⊥ ={
(x, y, z) ∈R3 :x + y + z = 0
x + z = 0
}Si los {u1, . . . ,uk } son ortonormales, todo vector, x ∈ Rn , se proyecta sobreU = L(u1, . . . ,uk ), en el vector pU (x) = c1u1 +·· ·+ck uk , donde ci = x •ui
23.
Por el lema 11, se tiene (x −pU (x))⊥U . O sea, x −pU (x) ∈U⊥.Además, para todo u ∈U , se tiene u −pU (x) ∈U .
22Que pasa por el origen.23Son los coeficientes de Fourier.
Enrique R. AznarDpto. de Álgebra
Página web personal
Página de Abertura
Contenido
JJ II
J I
Página 44 de 63
Atrás
Pantalla grande/pequeña
Cerrar
Entonces, por el teorema 4 (de Pitágoras) se tiene
‖x−u‖2 = ‖(x−pU (x))+(pU (x)−u)‖2 = ‖x−pU (x)‖2+‖pU (x)−u‖2 ≥ ‖x−pU (x)‖2
y la igualdad se da si, y sólo si pU (x)−u = 0 ⇐⇒ u = pU (x).O sea, hemos demostrado el
Teorema 7. [de la mejor aproximación]u = pU (x) ∈U es el único vector que hace mínimo el valor ‖x −u‖, ∀u ∈U .
Si consideramos ahora, un s.l. de ecuaciones, con coeficientes realesa11x1 +·· ·+a1n xn = b1
...am1x1 +·· ·+amn xn = bm
matricialmente, A ·X = B , donde A = (ai j ) es su matriz y
C (A) = {AX ∈Rm : x ∈Rn}
es su espacio de columnas. Por el teorema de Rouché-Frobenius, sabemosque el s.l. es compatible si, y sólo si B ∈C (A).
Para Rn con el producto escalar usual, decimos que tenemos
Definición 25. Una solución mínimo cuadrática (s.m.c.)24 del s.l., AX =B , es un vector X ∈Rn que hace mínimo el valor ‖B − AX ‖.
24El nombre viene de la norma usual en Rn .
Enrique R. AznarDpto. de Álgebra
Página web personal
Página de Abertura
Contenido
JJ II
J I
Página 45 de 63
Atrás
Pantalla grande/pequeña
Cerrar
Claramente, si AX = B es compatible, cada solución X ∈ Rn del s.l. es unasolución mínimo cuadrática ya que verifica ‖B − AX ‖ = 0.
Si B ∉ C(A), el s.l. es incompatible. En este caso, por las propiedades de lanorma, para todo X ∈Rn se tiene ‖B − AX ‖ > 0.
Ahora, por el teorema de la mejor aproximación, el valor ‖AX −B‖ serámínimo cuando AX = pC (A)(B) ⇐⇒ B − AX⊥C (A). Equivalentemente
B − AX⊥C (A) ⇐⇒ AY • (B − AX ) = 0, ∀Y ∈Rn
⇐⇒ Y t At (B − AX ) = 0, ∀Y ∈Rn
⇐⇒ Y t At B = Y t At AX , ∀Y ∈Rn
⇐⇒ At AX = At B
Pero por el corolario 3, el s.l. asociado At AX = At B es compatible. Además,si A es de r.p.p.c., por el corolario 2, At AX = At B es de Cramer. Así,
Teorema 8. Las soluciones mínimo cuadráticas de AX = B , coinciden conlas soluciones de At AX = At B . Si A es de r.p.p.c., existe una única s.m.c.
En particular, el teorema se aplica para s.l. de rango pleno por columnas(r.p.p.c.), cuyo caso interesante es cuando AX = B es incompatible25.
25Si es de r.p.p.c. tiene inversa lateral AL A = (At A)−1 At A = In . Si además, AX = B escompatible, ALB = AL AX = X y tiene solución única. O sea, es de Cramer.
Enrique R. AznarDpto. de Álgebra
Página web personal
Página de Abertura
Contenido
JJ II
J I
Página 46 de 63
Atrás
Pantalla grande/pequeña
Cerrar
Por el contrario, cuando A es de rango pleno por filas (r.p.p.f.), se tienem ≤ n, rango(A) = m, y el rango de la matriz ampliada también es m.
Por el teorema de Rouché-Frobenius, el s.l. AX = B es compatible. Además,existe inversa lateral por la derecha, denotada AR = At (A At )−1 ya que
A AR = A At (A At )−1 = Im
y el vector AR B es una solución del sistema, A(AR B) = B .Además, si X es otra solución, se tiene
AX = B = A(AR B) ⇐⇒ A(X − AR B) = 0 ⇐⇒ Y = X − AR B ∈ N (A)
Así pues, X = AR B +Y para cierto Y ∈ N (A). Por tanto,
‖X ‖2 = (AR B +Y )• (AR B +Y ) = ‖AR B‖2 +2(AR B •Y )+‖Y ‖2
Como AY = A(X − AR B) = 0, el producto escalar
AR B •Y = Y • AR B = Y t AR B = Y t At (A At )−1B = (AY )t (A At )−1B = 0
también se anula, y hemos demostrado que
‖X ‖2 = (AR B +Y )• (AR B +Y ) = ‖AR B‖2 +‖Y ‖2 ≥ ‖AR B‖2
Lema 12. Si A es de r.p.p.f., el s.l. AX = B es compatible y AR B es lasolución de norma mínima.
Enrique R. AznarDpto. de Álgebra
Página web personal
Página de Abertura
Contenido
JJ II
J I
Página 47 de 63
Atrás
Pantalla grande/pequeña
Cerrar
Ejemplo 25. El s.l.{
x1 +x2 +x3 = 1x1 −x2 +3x3 = 1
es compatible indeterminado porque rango(A) = 2 = rango(A|B) < 3.Por tanto, tiene infinitas soluciones, una de ellas es la de norma mínima.
Como es de r.p.p.f., calculamos su inversa lateral por la derecha AR = At (A At )−1
AR =1 1
1 −11 3
(3 33 11
)−1
=1 1
1 −11 3
( 1124 −1
8−1
818
)=
1/3 07/12 −1/41/12 1/4
Para hallar la solución de norma mínima, la multiplicamos por la columnade términos independientes
AR B = 1
3 07
12 −14
112
14
(11
)=
1/31/31/3
Para hallar la norma mínima de una solución, se calcula su norma
‖AR B‖ = ‖(1
3,
1
3,
1
3)‖ =
p3
3= 0.57735
Esta norma calculada es la distancia desde el origen de coordenadas (0,0,0)a nuestro subesp. vect. Que es la intersección de dos planos en R3.
O sea, la distancia calculada es la mínima desde el origen a la recta.Así, la llamamos distancia del origen a la recta.
Enrique R. AznarDpto. de Álgebra
Página web personal
Página de Abertura
Contenido
JJ II
J I
Página 48 de 63
Atrás
Pantalla grande/pequeña
Cerrar
12. APÉNDICE 1: RECTAS DE REGRESIÓN
Una aplicación de los anteriores teoremas, es al cálculo de la llamada rectade regresión de Y sobre X , donde se busca una dependencia lineal del tipo
y = b +ax
entre dos conjuntos de datos x = {x1, . . . , xn}, e y = {y1, . . . , yn}. Lo que se
hace es considerar X =(
ba
)como incógnitas y los s.l. asociados
AX =
1 x1...
...1 xn
·(
ba
)=
y1...
yn
= B =⇒ At AX = At B
El primer sistema, AX = B usualmente será incompatible. Pero cuando Asea de rango 226, el segundo sistema, At AX = At B será de Cramer.
En ese caso, su solución única b, a ∈ R define una recta, y = b + ax, quegeométricamente está próxima a la nube de puntos (xi , yi ) y se llama rectade regresión de y sobre x.
Por el teo. 8, será una solución mínimo cuadrática del primer s.l. y por tanto‖AX −B‖ =
√∑ni=1 e2
i será mínimo, donde ei = b+axi − yi son los residuos.
26Basta con que dos medidas, xi 6= x j , sean diferentes y A es de r.p.p.c.
Enrique R. AznarDpto. de Álgebra
Página web personal
Página de Abertura
Contenido
JJ II
J I
Página 49 de 63
Atrás
Pantalla grande/pequeña
Cerrar
También, por el teorema de la mejor aproximación, este valor mínimo sealcanza cuando AX = pC (A)(B). Por tanto, los coeficientes de la recta deregresión también se pueden hallar proyectando el vector B sobre el espaciode columnas de la matriz A.
Para eso, lo que hay que hacer es ortonormalizar las dos columnas de A,
1n =(1
...1
), u =
( x1...
xn
). El primer vector de esa base ortonormal será u1 = 1p
n
(1...1
)y el segundo se calcula con el algoritmo de Gram-Schmidt.
u − (u1 ·u)u1 =
x1...
xn
− x1 +·· ·+xnpn
1pn
1...1
=
x1...
xn
− x
1...1
=
x1 − x...
xn − x
Como la norma de este vector es
√(x1 − x)2 +·· ·+ (x1 − x)2 = p
n σ1, el
segundo vector de la base ortonormal de columnas es u2 = 1pn σ1
(x1−x
...xn−x
).
Para la proyección pC (A)(B) = (B ·u1)u1+(B ·u2)u2, calculamos cada sumando
(B ·u1)u1 = y1 +·· ·+ ynpn
1pn
1...1
= y1 +·· ·+ yn
n
1...1
= y
1...1
Enrique R. AznarDpto. de Álgebra
Página web personal
Página de Abertura
Contenido
JJ II
J I
Página 50 de 63
Atrás
Pantalla grande/pequeña
Cerrar
(B ·u2)u2 =∑n
i=1 xi yi − x∑n
i=1 yipn σ1
1pn σ1
x1 − x...
xn − x
=∑n
i=1 xi yi − xn y
n σ21
x1 − x...
xn − x
=
=∑n
i=1(xi − x)(yi − y)∑ni=1(xi − x)2
x1 − x...
xn − x
= s12
s21
x1 − x...
xn − x
= s12
s21
x1...
xn
− s12
s21
x
1...1
Por tanto, la proyección pC (A)(B) = (B ·u1)u1 + (B ·u2)u2 es
pC (A)(B) = y
1...1
+ s12
s21
x1...
xn
− s12
s21
x
1...1
=(
y − s12
s21
x
)1...1
+ s12
s21
x1...
xn
Ya hemos calculado la proyección y eso nos permite escribirla como pC (A)(B) =AX y calcular los coeficientes b, a de la recta
pC (A)(B) =
1 x1...
...1 xn
·(
y − s12
s21
xs12
s21
)=⇒ b = y − s12
s21
x, a = s12
s21
En particular, se comprueba que la recta de regresión de y sobre x pasa por(x, y)
y = y − s12
s21
x + s12
s21
x
Enrique R. AznarDpto. de Álgebra
Página web personal
Página de Abertura
Contenido
JJ II
J I
Página 51 de 63
Atrás
Pantalla grande/pequeña
Cerrar
Análogamente, si se intercambian los papeles de x e y en las fórmulas ante-riores se obtiene la recta de regresión de x sobre y
x = x − s12
s22
y + s12
s22
y ⇐⇒ y = y − s22
s12x + s2
2
s12x
Y también, se comprueba que pasa por el centro de gravedad o punto medio(x, y) de la nube de puntos.
Así, el producto de los segundos coeficientes de ambas rectas de regresiónes igual al cuadrado del coeficiente de correlación de ambas variables.
s12
s21
s12
s22
=(
s12
s1s2
)2
= r 212
Ejemplo 26. Consideramos dos variables o características que se midenen 4 ubicaciones distintas, obteniendo los valores x = {2, 7, 2, 1}, y ={3, 6, 0, 1} vamos a hallar y dibujar sus dos rectas de regresión y comprobarsu relación con el coeficiente de regresión r12.
Ptrimero, escribimos los dos s.l. asociados AX = B =⇒ At AX = At B1 21 71 21 1
·(ba
)=
3609
=⇒(1 1 1 12 7 2 1
)1 21 71 21 1
·(ba
)=
(1 1 1 12 7 2 1
)3609
=(1857
)
Enrique R. AznarDpto. de Álgebra
Página web personal
Página de Abertura
Contenido
JJ II
J I
Página 52 de 63
Atrás
Pantalla grande/pequeña
Cerrar
Por tanto, el s.l. de Cramer, At AX = At B , que nos dará los coeficientes dela recta de regresión de y sobre x es(
4 1212 58
)·(
ba
)=
(1857
)⇐⇒
{4b +12a = 18
12b +58a = 57⇐⇒
{4b +12a = 18
(58−3∗12)a = 57−3∗18
⇐⇒{
4b +12a = 1822a = 3
⇐⇒{
4b = −12 322 +18
a = 3/22⇐⇒
{b =− 9
22 + 92 = 45/11
a = 3/22
Luego la recta de regresión de y sobre x es
y = 45
11+ 3
22x ≈ 4.1+0.14 x
Si intercambiamos los papeles de las dos variables, se tienen los s.l.1 31 61 01 9
·(ba
)=
2721
=⇒(1 1 1 13 6 0 9
)1 31 61 01 9
·(ba
)=
(1 1 1 13 6 0 9
)2721
=(1257
)
Y el sistema de Cramer que nos da la recta de regresión de x sobre y es(4 18
18 126
)·(
ba
)=
(1257
)⇐⇒
{4 b +18 a = 12
18 b +126 a = 57⇐⇒
{2 b +9 a = 62 b +54 a = 9
⇐⇒{
2 b +9 a = 645a = 3
⇐⇒{
2 b +9 a = 6a = 3/45 = 1/15
⇐⇒{
b =− 310 +3 = 27/10
a = 1/15
Enrique R. AznarDpto. de Álgebra
Página web personal
Página de Abertura
Contenido
JJ II
J I
Página 53 de 63
Atrás
Pantalla grande/pequeña
Cerrar
Luego la recta de regresión de x sobre y es
x = 27
10+ 1
15y ⇐⇒ y =−40.5+15x
Si calculamos la intersección de ambas rectas de regresión, obtenemos{y = 45
11 + 322 x
x = 2710 + 1
15 y=⇒
{y = 45
11 + 322 ( 27
10 + 115 y) =
= 981220 + 1
110 y=⇒
{y = 110∗981
109∗220 = 92 = 4.5
x = 2710 + 1
15 ∗ 92 = 3
las dos medias y = 4.5, x = 3. O sea, el punto central es (x, y) = (3, 4.5).
Finalmente, lo dibujamos junto con los 4 puntos, (xi , yi ): p1 = (2, 3), p2 =(7, 6), p3 = (2, 0), p4 = (1, 9) y las dos rectas que pasan respectivamentepor (0, 45
11 ) ≈ (0, 4.1) y por ( 2710 , 0) = (2.7, 0) además de por el centro (3, 4.5).
p1
p2
p3
p4
x
ySe observa que los 4 puntos estánmuy poco correlacionados lineal-mente ya que se alejan bastantede ambas rectas de regresión.
Aunque, están más cerca de larecta de regresión de x sobre y(en rojo en la gráfica).
Enrique R. AznarDpto. de Álgebra
Página web personal
Página de Abertura
Contenido
JJ II
J I
Página 54 de 63
Atrás
Pantalla grande/pequeña
Cerrar
El producto de los segundos coeficientes de las dos rectas es igual al cuadradodel coeficiente de correlación de ambas variables y por tanto
r 212 =
(s12
s1s2
)2
= 3
22
1
15= 1
22∗5= 1
110=⇒ r12 = 1p
110≈ 0.0953463 ≈ 0.1
El coeficiente es muy pequeño en valor absoluto, lo que significa que ambasvariables están muy poco correlacionadas como se ha visto en su gráfica.
13. APÉNDICE 2: CORRELACIÓN Y RECTAS DE REGRESIÓN
Cuando los puntos están sobre una recta, y = b +a x ⇐⇒ x =−b + y/a, losdos s.l. siguientes tienen solución única, con b′ =−b, a′ = 1/a1 x1
......
1 xn
·(
ba
)=
y1...
yn
,
1 y1...
...1 yn
·(
b′a′
)=
x1...
xn
Por las fórmulas del apéndice anterior, s12
s22= a, s12
s21= 1
a y el coeficiente sale
r 212 =
s12
s21
s12
s22
= a
a= 1 ⇐⇒ r12 = 1 o bien r12 =−1
Recíprocamente, si r12 = 1, llamando a los vectores de las desviaciones de lasmedias respectivas, u = x− x∗1, v = y − y ∗1, y a sus vectores normalizados
Enrique R. AznarDpto. de Álgebra
Página web personal
Página de Abertura
Contenido
JJ II
J I
Página 55 de 63
Atrás
Pantalla grande/pequeña
Cerrar
u′ = u/‖u‖, v ′ = v/‖v‖ tenemos que su producto escalar vale 1 ya que
u′ · v ′ = u
‖u‖ ·v
‖v‖ =∑n
i=1(xi − x)(yi − y)√∑ni=1(xi − x)2
√∑ni=1(yi − y)2
= r12 = 1
pero entonces deben de ser iguales ya que la norma de su diferencia vale cero
‖u′− v ′‖2 = (u′− v ′) · (u′− v ′) = ‖u′‖2 +‖v ′‖2 −2u′ · v ′ = 1+1−2 = 0
Por tanto, si consideramos las matrices equivalentes por columnas1 x1 y1...
......
1 xn yn
∼
1 x1 − x y1 − y...
......
1 xn − x yn − y
∼
1 x1−x
‖u‖y1−y‖v‖
......
...1 xn−x
‖u‖yn−y‖v‖
tenemos que la 2ª y 3ª columnas de esta última matriz son los vectores u′ yv ′ tales que u′ = v ′ si r12 = 1. Si u′ · v ′ = r12 =−1 (r12 tiene el mismo signoque s12 y que las pendientes de regresión), se calcula la suma
‖u′+ v ′‖2 = (u′+ v ′) · (u′+ v ′) = ‖u′‖2 +‖v ′‖2 +2u′ · v ′ = 1+1−2 = 0
Por tanto, las 3 matrices tienen rango 2 y los s.l. que demuestran que lospuntos están alineados tienen solución única. Así, hemos demostrado
Teorema 9. El coeficiente r12 =±1 si y sólo si los puntos están alineados.
Por tanto, el coeficiente de correlación es un testigo de cuando una de lasvariables determina a la otra linealmente. Pero cuando los datos (xi , yi ) se
Enrique R. AznarDpto. de Álgebra
Página web personal
Página de Abertura
Contenido
JJ II
J I
Página 56 de 63
Atrás
Pantalla grande/pequeña
Cerrar
obtienen de medidas experimentales, a veces no se obtiene correlación porculpa de medidas erróneas. En esos casos, es mejor usar como testigos losvectores u′, v ′ ya que el desarrollo anterior también demuestra que
Teorema 10. u′ =±v ′ si y sólo si los puntos están alineados.
Donde el signo coincide con el de r12. Así, comparar las coordenadas de
u′ = 1
‖u′‖ (x1 − x, . . . , xn − x) , v ′ = 1
‖v ′‖(y1 − y , . . . , yn − y
)permite descubrir medidas que no se corresponden con el resto. Por ejemplo,cuando u′− v ′, o la suma, u′+ v ′, es muy pequeña salvo una coordenada.
Ejemplo 27. Dadas las variables, x = {1.9, 1, 3.1, 2.8}, y = {3.19, 2.2, 3.5, 4.18}.Si calculamos su coeficiente de regresión, r12 ≈ 0.88, sale proximo a 1. Comoes positivo, comparamos u′ = v ′. Esto es, calculamos los vectores u′ y v ′ y sudiferencia u′− v ′ = (−0.13,0.02,0.38,−0.27). Ahora, si descartamos las ter-ceras coordenadas (la mayor) obtenemos una correlación completa (r12 = 1)
p1p2
p3p4
x
yComo se observa los puntos p1, p2, p4 estáncorrelacionados linealmente mientras que el p3probablemente sea espurio o erróneo.
Si hubiera salido r12 próximo a -1, tendríamosque calcular la suma u′+ v ′ y probaríamos adescartar la mayor de sus coordenadas.
Enrique R. AznarDpto. de Álgebra
Página web personal
Página de Abertura
Contenido
JJ II
J I
Página 57 de 63
Atrás
Pantalla grande/pequeña
Cerrar
14. EJERCICIOS.
Ejercicio 1. En Pol2(R), con el producto definido por
< p(x), q(x) > =∫ 1
0p(x)q(x)d x
Halla sus matrices de Gram respecto de las bases
B = {1, x, x2}, B ′ = {1,p
3(2x −1),p
5(1−6x +6x2)}
Comprueba que la segunda base es ortonormal respecto al producto escalar.Halla la descomposición de Choleski de la primera matriz.
Ejercicio 2. Dada la matriz A, Halla su descomposición de Cholesky con
A =1 1 0
1 2 10 1 1
el algoritmo y ortonormalizando. ¿Cuál es mejor computacionalmete?
Ejercicio 3. Razona que la matriz A es sólo semidefinida positiva.Mientras que B es d.p. y define una métrica.
A =1 1 0
1 2 10 1 1
, B =1 1 0
1 2 00 0 1
Enrique R. AznarDpto. de Álgebra
Página web personal
Página de Abertura
Contenido
JJ II
J I
Página 58 de 63
Atrás
Pantalla grande/pequeña
Cerrar
Ejercicio 4. Aplica el proceso de Gram-Schmidt modificado y sin modificara los vectores fila de la matriz A. ¿Qué conclusiones sacas?
A =1 10−6 10−6
1 10−6 00 0 10−6
Ejercicio 5. Aplica el proceso de Gram-Schmidt modificado y sin modificara los vectores columna de la matriz. ¿Qué conclusiones sacas?1 1 2
0 1 01 1 1
Ejercicio 6. Transforma la matriz usando una base ortonormal ampliada de
1 5 66 1 58 6 73 3 1
su espacio de columnas. Usa esta base para encontrar una factorización QRde A. Comprueba que el rango de A coincide con el de la matriz R.
Ejercicio 7. Transforma la matriz(3 5 66 1 5
)usando una base ortonormal
ampliada de su espacio de columnas. Usa esta base para encontrar una
Enrique R. AznarDpto. de Álgebra
Página web personal
Página de Abertura
Contenido
JJ II
J I
Página 59 de 63
Atrás
Pantalla grande/pequeña
Cerrar
factorización QR de A. Comprueba que el rango de A coincide con el de lamatriz R.
Ejercicio 8. Comprueba que el sistema lineal de ecuaciones es incompati-ble.
x + y = 1x − y = 0x +3y = 1
Mientras que el s.l. At AX = At B es compatible y tiene solución única. Hallala distancia mínima del espacio de columnas C(A) al vector B de términosindependientes.
Ejercicio 9. Comprueba que el sistema lineal de ecuaciones es compatible{x + y + z = 1x − y +3z = 0
indeterminado. Halla la solución de norma mínima y su valor.
Ejercicio 10. Comprueba que el sistema lineal de ecuacionesx + y + z + t = 12x − y +3z −2t = 03x +4z − t = 1
es incompatible. Mientras que el s.l. At AX = At B es compatible y tieneinfinitas soluciones. Halla la distancia mínima del espacio de columnasC(A) al vector B de los términos independientes.
Enrique R. AznarDpto. de Álgebra
Página web personal
Página de Abertura
Contenido
JJ II
J I
Página 60 de 63
Atrás
Pantalla grande/pequeña
Cerrar
15. TEST DE REPASO.
Para comenzar el cuestionario pulsa el botón de inicio.Cuando termines pulsa el botón de finalizar.Para marcar una respuesta coloca el ratón en la letra correspondiente y pulsael botón de la izquierda (del ratón).
1. ¿Cuál de las siguientes afirmaciones es verdadera?.(a) El producto escalar usual es el único posible en Rn .(b) Hay infinitos productos escalares en Rn .(c) Hay un número finito de productos escalares en Rn .(d) Solo existen productos escalares en R2 y R3.
2. ¿Cuál de las siguientes afirmaciones es verdadera?.(a) Un producto escalar es distributivo pero no conmutativo.(b) Un producto escalar es siempre definido positivo(c) Un producto escalar sólo es lineal, distributivo y conmutativo.(d) El producto escalar u •u puede ser cero.
Enrique R. AznarDpto. de Álgebra
Página web personal
Página de Abertura
Contenido
JJ II
J I
Página 61 de 63
Atrás
Pantalla grande/pequeña
Cerrar
3. ¿Cuál de las siguientes afirmaciones es verdadera?.(a) Una matriz grammiana es siempre matriz de una métrica.(b) Una matriz grammiana es siempre definida positiva.(c) El determinante de una matriz grammiana, At A, determina la inde-
pendencia de las columnas de A.(d) El determinante de una matriz grammiana, At A, siempre es distinto
de cero.
4. ¿Cuál de las siguientes afirmaciones es verdadera?.(a) Dos matrices simétricas reales siempre son congruentes.(b) Si una matriz admite una descomposición de Cholesky es congruente
con la identidad.(c) Una matriz simétrica real siempre admite una descomposición de
Cholesky.(d) Una matriz puede admitir una descomposición de Cholesky aunque
no sea simétrica.
5. ¿Cuál de las siguientes afirmaciones es verdadera?.(a) El sistema lineal de ecuaciones At AX = At B es incompatible.(b) El sistema lineal de ecuaciones At AX = At B puede ser compatible.(c) El sistema lineal de ecuaciones At AX = At B siempre es compatible
determinado.
Enrique R. AznarDpto. de Álgebra
Página web personal
Página de Abertura
Contenido
JJ II
J I
Página 62 de 63
Atrás
Pantalla grande/pequeña
Cerrar
(d) El sistema lineal de ecuaciones At AX = At B puede ser compatibleindeterminado.
6. ¿Cuál de las siguientes afirmaciones es verdadera?.(a) La norma de todo vector es positiva.(b) Solo son vectores unitarios los canónicos.(c) La desigualdad de Cauchy-Schwartz relaciona las normas de dos vec-
tores y su suma.(d) La desigualdad de Cauchy-Schwartz sirve para definir ángulos.
7. ¿Cuál de las siguientes afirmaciones es verdadera?.(a) La desigualdad triangular sirve para definir ángulos.(b) La desigualdad triangular relaciona el producto escalar con las nor-
mas de dos vectores.(c) La desigualdad triangular determina si dos vectores están alineados.(d) La desigualdad triangular nunca da una igualdad.
8. ¿Cuál de las siguientes afirmaciones es verdadera?.(a) Un vector está formado por sus cosenos directores.(b) La norma de un vector y los cosenos directores determinan un vector.(c) Los cosenos directores de un vector no nulo pueden ser todos cero.
Enrique R. AznarDpto. de Álgebra
Página web personal
Página de Abertura
Contenido
JJ II
J I
Página 63 de 63
Atrás
Pantalla grande/pequeña
Cerrar
(d) Un vector unitario no tiene cosenos directores.
9. Para todo u ∈Rn y B = {u1, . . . ,un} una base.(a) u puede ser ortogonal a si mismo.(b) Un vector no nulo puede ser ortogonal a B .(c) di m(L(u))+di m(L(u)⊥) = n −1.(d) Existe un único vector que es ortogonal a B .
10. Dada una matriz, A ∈ Mmxn(R).(a) La matriz A At y At A tiene la misma descomposición de Cholesky.(b) La matriz A admite una descomposición de Cholesky.(c) La matriz A admite una descomposición QR.(d) A At tiene una descomposición QR pero A no.
Recommended