4 Castaño_Análisis de datos multivariados.pdf

Embed Size (px)

Citation preview

  • 8/18/2019 4 Castaño_Análisis de datos multivariados.pdf

    1/243

    ______________________________________________________ Elkin Castaño V. 1

     

    XII SEMINARIO DE ESTADÍSTICA APLICADA

    III ESCUELA DE VERANO

    VII COLOQUIO REGIONAL DE ESTADÍSTICA

    INTRODUCCIÓN AL ANÁLISIS DE DATOS

    MULTIVARIADOS EN CIENCIAS SOCIALES

    Profesor

    ELKIN CASTAÑO V.

    Facultad de Ciencias, Universidad Nacional de Colombia,

    Medellín

    Facultad de Ciencias Económicas, Universidad de

    Antioquia

  • 8/18/2019 4 Castaño_Análisis de datos multivariados.pdf

    2/243

    ______________________________________________________ Elkin Castaño V. 2

     

    CONTENIDO

    Capítulo 1. Aspectos Básicos del Análisis Multivariado

    Capítulo 2. Vectores y Matrices Aleatorias

    Capítulo 3. La Distribución Normal Multivariada

    Capítulo 4. Análisis de Componentes Principales

    Capítulo 5. Análisis de Factor

  • 8/18/2019 4 Castaño_Análisis de datos multivariados.pdf

    3/243

    ______________________________________________________ Elkin Castaño V. 3

    CAPÍTULO 1.

    ASPECTOS BÁSICOS DEL ANÁLISIS MULTIVARIADO

    1. INTRODUCCIÓN

    •  La investigación científica es un proceso iterativo aprendizaje

     Los objetivos relacionados con la explicación de un

    fenómeno físico o social deben ser especificados y probados

    por medio de la consecución y el análisis de los datos.

     A su vez, el análisis de los datos generalmente sugerirá

    modificaciones a la explicación del fenómeno: se agregarán

    o suprimirán variables.

    •  La complejidad de la mayoría de los fenómenos exigen que el

    investigador recoja información sobre muchas variables

    diferentes.

    •  El Análisis de datos multivariados proporciona al investigador

    métodos para analizar esta clase de datos:

  • 8/18/2019 4 Castaño_Análisis de datos multivariados.pdf

    4/243

    ______________________________________________________ Elkin Castaño V. 4

     Métodos de reducción de datos

    Tratan de obtener representaciones de los datos en forma tan

    simple como sea posible, sin sacrificar información.

     Métodos de Ordenamiento y agrupación

    Tratan de crear grupos de objetos o de variables que sean

    similares.

    Alternativamente, tratan de generar reglas para clasificarobjetos dentro de grupos bien definidos.

     Métodos para investigar las relaciones de dependencia entre

    las variables, pues generalmente las relaciones entre las

    variables son de interés.

     Métodos de predicción

    Establecidas las relaciones de las variables, se trata de

    predecir los valores de una o más variables sobre las base de

    las observaciones de as demás variables.

     

    Construcción y pruebas de hipótesisTratan de validar supuestos o reforzar convicciones a priori.

  • 8/18/2019 4 Castaño_Análisis de datos multivariados.pdf

    5/243

    ______________________________________________________ Elkin Castaño V. 5

    2. LOS DATOS Y SU ORGANIZACIÓN

    •  Tipos de datos: Los datos recolectados pueden ser generados

    por:

     Experimentación: a través del diseño experimental

     Observación: se recoge la información existente

    •  Presentación de los datos: su objetivo es facilitar el análisis

     Tablas

     Arreglos matriciales

     Medidas resúmenes o descriptivas

     Gráficos

    •  Tablas

    Sea x jk el valor que toma la k-ésima variable sobre el j-ésimoobjeto (o individuo o unidad experimental). Si se toman n

    mediciones sobre p variables de interés, el conjunto de datos

    puede ser presentado como

  • 8/18/2019 4 Castaño_Análisis de datos multivariados.pdf

    6/243

    ______________________________________________________ Elkin Castaño V. 6

     Objeto var 1 Var 2 … Var k … Var p

    1 x11  x12  … x1k  … x1p 

    2 x 21  x 22  … x2k  … x2p ⋮  ⋮  ⋮  ⋮  ⋮   j x j1  x j2  … x jk  … x jp ⋮  ⋮  ⋮  ⋮  ⋮  p x n1  x n2  … xnk  … xnp 

    •  Arreglos matriciales

    Los datos también pueden ser presentados usando arreglosmatriciales:

    X=

    11 12 1k 1p

    21 22 2k 2p

     j1 j2 jk jp

    n1 n2 nk np

    x x x x

    x x x x

    x x x x

    x x x x

    ⋯ ⋯

    ⋯ ⋯

    ⋮ ⋮ ⋮ ⋮

    ⋯ ⋯

    ⋮ ⋮ ⋮ ⋮

    ⋯ ⋯

     

    •  Estadísticas descriptivas:

     Los conjuntos de datos generalmente son voluminosos.

     

    Esto es un serio obstáculo para extraer informaciónrelevante visualmente.

     Mucha de la información contenida en X puede ser evaluada

    por medio de medidas que describen cuantitativamente

  • 8/18/2019 4 Castaño_Análisis de datos multivariados.pdf

    7/243

    ______________________________________________________ Elkin Castaño V. 7

    ciertas características de los datos: localización, dispersión,

    correlación, simetría, curtosis.

    La media aritmética o media muestral: es una medida de

    localización. Para los datos de la i-ésima variable se define

    como

    1

    1 ni ji

     j

     x xn   =

    =   ∑  

    La varianza muestral: Es una medida de dispersión. Para

    los datos de la i-ésima variable se define como

    2 21 ( )n

    i ji i j

    s x xn   =

    = −∑  

    Observación:  Algunos autores definen la varianza

    muestral usando n-1 en lugar de n en el denominador.

    Existen razones teóricas para hacerlo, especialmente

    cuando n es pequeño.

    La desviación estándar muestral: Es otra medida de

    dispersión. Tiene la ventaja de que posee las mismas

    unidades de medición de los datos. Para los datos de la i-

    ésima variable se define como

  • 8/18/2019 4 Castaño_Análisis de datos multivariados.pdf

    8/243

    ______________________________________________________ Elkin Castaño V. 8

    2i is s= +  

    Covarianza muestral:  es una medida de asociación linealentre los datos de dos variables. Para los datos de la i-ésima

    y k-ésima variable se define como

    1

    1( )( )

    n

    ik ji i jk k   j

    s x x x xn   =

    = − −∑  

    Interpretación:

    sik>0 indica una asociación lineal positiva entre los datos de

    las variables

    sik

  • 8/18/2019 4 Castaño_Análisis de datos multivariados.pdf

    9/243

    ______________________________________________________ Elkin Castaño V. 9

    Correlación muestral: Es otra medida de asociación lineal.

    Para los datos de la i-ésima y k-ésima variable se define

    comoik 

    ik 

    ii kk  

    sr 

    s s=  

    A diferencia de la covarianza muestral, que no indica cuál es

    la fortaleza de la relación lineal, la correlación está acotada

    entre -1 y 1.

    Propiedades de rik:

    1) | rik| ≤1

    rik=1 indica que hay una asociación lineal positiva y perfecta

    entre los datos de las variables. Los datos caen sobre unalínea recta de pendiente positiva.

    0

  • 8/18/2019 4 Castaño_Análisis de datos multivariados.pdf

    10/243

    ______________________________________________________ Elkin Castaño V. 10

    -1

  • 8/18/2019 4 Castaño_Análisis de datos multivariados.pdf

    11/243

    ______________________________________________________ Elkin Castaño V. 11

    5) sik  y rik  son muy sensibles a la existencia de datos

    atípicos (outliers). Cuando existen observaciones

    sospechosas, es recomendable calcularlas con y sin dichasobservaciones.

    Coeficiente de asimetría muestral:  es una medida que

    describe la asimetría de la distribución de los datos con

    respecto a la media muestral. Se define como:

    3

    13 / 2

    2

    1

    ( )

    ( )

    ( )

    n

     ji i j

    in

     ji i j

    n x x

    sk x

     x x

    =

    =

    −∑

    =

    −∑

     

    Cuando los datos proceden de una distribución simétrica,

    como la distribución normal, ( )isk x   ≃ 0 

    Coeficiente de curtosis muestral:  es una medida que

    describe el comportamiento en las colas de la distribución de

    los datos. Se define como

    4

    12

    2

    1

    ( )

    ( )

    ( )

    n

     ji i j

    in

     ji i j

    n x x

    k x

     x x

    =

    =

    −∑

    =

    −∑

     

  • 8/18/2019 4 Castaño_Análisis de datos multivariados.pdf

    12/243

    ______________________________________________________ Elkin Castaño V. 12

    Cuando los datos proceden de una distribución como la

    normal, ( )ik x   ≃ 3. 

    ARREGLOS BASADOS EN ESTADÍSTICAS DESCRIPTIVAS

    •  Para las medias muestrales: El vector de media muestral se

    define como

    1

    2

     p

     x

     x x

     x

    =

    ⋮  

    •  Para las varianzas y covarianzas muestrales: La matriz de

    varianza y covarianza muestral, o matriz de covarianza

    muestral, se define como

    11 12 1p

    12 22 2p

    1p 2p pp

    ...

    ...

    ...

    s s s

    s s sS 

    s s s

    =

    ⋮ ⋮ ⋮ 

    S es una matriz simétrica.

    •  Para las correlaciones muestrales: La matriz de

    correlaciones muestral se define como

  • 8/18/2019 4 Castaño_Análisis de datos multivariados.pdf

    13/243

    ______________________________________________________ Elkin Castaño V. 13

    12 1p

    12 2p

    1p 2p

    1 ...

    1 ...

    ... 1

    r r 

    r r  R

    r r 

    =

    ⋮ ⋮ ⋮ 

    R es una matriz simétrica.

    Ejemplo: Lectura de datos en R y cálculo de arreglos muestrales.

    Datos sobre 8 variables para 22 compañías de servicio público.

    X1: Cargo fijo

    X2: Tasa de retorno del capital

    X3: Costo por kilovatio

    X4: Factor anual de carga

    X5: Crecimiento del pico de la demanda desde 1964.

    X6: Ventas

    X7: Porcentaje de generación nuclear

    X8: Costo total de combustible

    Empleo del programa R

    # lectura de los datos desde un archivo de texto con nombres de las variables

    publ_util

  • 8/18/2019 4 Castaño_Análisis de datos multivariados.pdf

    14/243

    ______________________________________________________ Elkin Castaño V. 14

    medias

  • 8/18/2019 4 Castaño_Análisis de datos multivariados.pdf

    15/243

    ______________________________________________________ Elkin Castaño V. 15

    15 0.96 7.6 164 62.2 -0.1 6468 0.9 1.400

    16 1.16 9.9 252 56.0 9.2 15991 0.0 0.620

    17 0.76 6.4 136 61.9 9.0 5714 8.3 1.920

    18 1.05 12.6 150 56.7 2.7 10140 0.0 1.108

    19 1.16 11.7 104 54.0 -2.1 13507 0.0 0.636

    20 1.20 11.8 148 59.9 3.5 7287 41.1 0.70221 1.04 8.6 204 61.0 3.5 6650 0.0 2.116

    22 1.07 9.3 174 54.3 5.9 10093 26.6 1.306

    MEDIAS MUESTRALES

    X1 X2 X3 X4

    1.114091 10.736364 168.181818 56.977273

    X5 X6 X7 X8

    3.240909 8914.045455 12.000000 1.102727

    MATRIZ DE COVARIANZA MUESTRAL

    X1 X2 X3 X4

    X1 0.034044372 0.2661299 -0.7812554 -6.752165e-02

    X2 0.266129870 5.0357576 -32.1259740 -8.643723e-01

    X3 -0.781255411 -32.1259740 1696.7272727 1.843290e+01

    X4 -0.067521645 -0.8643723 18.4329004 1.990184e+01

    X5 -0.149080087 -1.8201299 55.9207792 4.657359e-01

    X6 -99.346385281 -76.6160173 4092.5151515 -4.560037e+03

    X7 0.138809524 7.9676190 79.3095238 -1.229762e+01

    X8 -0.001372165 -0.4088848 0.1195758 1.204446e+00

    X5 X6 X7 X8

    X1 -0.14908009 -9.934639e+01 1.388095e-01 -1.372165e-03

    X2 -1.82012987 -7.661602e+01 7.967619e+00 -4.088848e-01

    X3 55.92077922 4.092515e+03 7.930952e+01 1.195758e-01

    X4 0.46573593 -4.560037e+03 -1.229762e+01 1.204446e+00

    X5 9.72348485 1.952874e+03 -1.001429e+00 -1.236926e-02

    X6 1952.87424242 1.260239e+07 -2.227602e+04 -1.106557e+03

    X7 -1.00142857 -2.227602e+04 2.819686e+02 -1.728324e+00

    X8 -0.01236926 -1.106557e+03 -1.728324e+00 3.092451e-01

    MATRIZ DE CORRELACIÓN MUESTRAL

    X1 X2 X3 X4

    X1 1.00000000 0.642744766 -0.102793192 -0.08203019

    X2 0.64274477 1.000000000 -0.347550467 -0.08634194

    X3 -0.10279319 -0.347550467 1.000000000 0.10030926

  • 8/18/2019 4 Castaño_Análisis de datos multivariados.pdf

    16/243

    ______________________________________________________ Elkin Castaño V. 16

    X4 -0.08203019 -0.086341943 0.100309264 1.00000000

    X5 -0.25911109 -0.260111168 0.435367718 0.03347975

    X6 -0.15167116 -0.009617468 0.027987098 -0.28793559

    X7 0.04480188 0.211444212 0.114661857 -0.16416254

    X8 -0.01337310 -0.327655318 0.005220183 0.48550006

    X5 X6 X7 X8X1 -0.259111089 -0.151671159 0.04480188 -0.013373101

    X2 -0.260111168 -0.009617468 0.21144421 -0.327655318

    X3 0.435367718 0.027987098 0.11466186 0.005220183

    X4 0.033479746 -0.287935594 -0.16416254 0.485500063

    X5 1.000000000 0.176415568 -0.01912532 -0.007133152

    X6 0.176415568 1.000000000 -0.37368952 -0.560526327

    X7 -0.019125318 -0.373689523 1.00000000 -0.185085916

    X8 -0.007133152 -0.560526327 -0.18508592 1.000000000

    COEFICIENTE DE ASIMETRÍA MUESTRAL DE x1

    -0.01711117

    COEFICIENTE DE CURTOSIS MUESTRAL DE x1

    2.785947

    •  Gráficos

    Los gráficos son ayudas importantes en el análisis de los datos.

    Aunque es imposible graficar simultáneamente los valores de

    todas las variables en el análisis y estudiar su configuración,

    los gráficos de las variables individuales y de pares de

    variables son muy informativos.

     Gráficos para variables individuales:

    Sirven para conocer las distribuciones marginales de los

    datos para cada variable. Entre ellos se encuentran:

  • 8/18/2019 4 Castaño_Análisis de datos multivariados.pdf

    17/243

    ______________________________________________________ Elkin Castaño V. 17

    Gráficos de puntos: recomendados para muestras

    pequeñas.

       0 .   7

       0 .   8

       0 .   9

      1 .   0

      1 .  1

      1 .   2

      1 .  3

      1 .  4

      1 .   5

    X1  

    Gráficos de cajas: recomendados para muestras moderadas

    o grandes. Sean Q1 y Q3 los cuartiles inferior y superior de

    la distribución de una variable aleatoria, y sea IQR= Q3 - Q1 

    el rango intercuartil. El gráfico de cajas es un gráfico

    esquemático de la distribución de la variable aleatoria, como

    se ilustra a continuación. Se compara con el caso de que la

    distribución teórica sea una normal.

  • 8/18/2019 4 Castaño_Análisis de datos multivariados.pdf

    18/243

    ______________________________________________________ Elkin Castaño V. 18

    Para los datos de la variable X1  del ejemplo,

       0 .   7

       0 .   8

       0 .   9

      1 .   0

      1 .  1

      1 .   2

      1 .  3

      1 .  4

      1 .   5

    X1  

    Los datos que caen más a la izquierda de Q1-1.5*IQR y más

    a la derecha de Q3+1.5*IQR son considerados datos atípicos

    o inusuales.

    Histogramas:  recomendados para muestras moderadas o

    grandes.

       0 .   7

       0 .   8

       0 .   9

      1 .   0

      1 .  1

      1 .   2

      1 .  3

      1 .  4

      1 .   5

    X1

    0.0

    0.1

    0.2

    0.3

    0.4

    0.5

    P r  o p or  t  i   on

     p er B  ar 

    0

    2

    4

    6

    8

    10

    12

          C     o    u     n      t

     

  • 8/18/2019 4 Castaño_Análisis de datos multivariados.pdf

    19/243

    ______________________________________________________ Elkin Castaño V. 19

     Gráficos para cada par de variables:

    Son utilizados para estudiar distribución de los datos para 2

    variables. Dan indicaciones sobre la orientación de los datosen el plano cartesiano y la asociación que hay entre ellos.

    Son llamados diagramas de dispersión.

    Hay varias clases diagramas de dispersión, por ejemplo:

    a) Simple

       6 7 8 9   1   0   1  1   1   2   1  3   1  4   1   5   1   6

    X2

    0.7

    0.8

    0.9

    1.0

    1.1

    1.2

    1.3

    1.4

    1.5

       X   1

     

  • 8/18/2019 4 Castaño_Análisis de datos multivariados.pdf

    20/243

    ______________________________________________________ Elkin Castaño V. 20

    b) Con marginales como diagramas de puntos

       6 7 8 9   1   0   1  1   1   2   1  3   1  4   1   5   1   6

    X2

    0.7

    0.8

    0.9

    1.0

    1.1

    1.2

    1.3

    1.4

    1.5

       X   1

     

    c) Con marginales como gráficos de cajas

       6 7 8 9   1   0   1  1   1   2   1  3   1  4   1   5   1   6

    X2

    0.7

    0.8

    0.9

    1.0

    1.1

    1.2

    1.3

    1.4

    1.5

       X   1

     

  • 8/18/2019 4 Castaño_Análisis de datos multivariados.pdf

    21/243

    ______________________________________________________ Elkin Castaño V. 21

    El efecto de observaciones inusuales sobre la correlación

    muestral

    Frecuentemente algunas observaciones de la muestra tienen unefecto considerable en el cálculo de la correlación muestral.

    Considere el gráfico de dispersión para las variables X1 y X2.

    El coeficiente de correlación muestral es r12=0.643

    Ahora considere el gráfico de dispersión en el cual el tamañodel punto está relacionado con el cambio que tiene el

    coeficiente de correlación muestral cuando la observación

    correspondiente a ese punto es eliminada.

  • 8/18/2019 4 Castaño_Análisis de datos multivariados.pdf

    22/243

    ______________________________________________________ Elkin Castaño V. 22

     

    Los resultados muestran que al eliminar la observación

    denominada “consolid”, el coeficiente de correlación muestral

    tiene un cambio mayor de 0.10.

    El coeficiente calculado sin esta observación es 0.836.

    Entonces su eliminación produce un cambio positivo de 0.193,

    el cual corresponde a una variación porcentual del 30%!

     Gráficos para tres variables: Diagramas de dispersióntridimensionales

    Son utilizados para estudiar los aspectos tridimensionales de

    los datos. Generalmente estos gráficos permiten rotación.

  • 8/18/2019 4 Castaño_Análisis de datos multivariados.pdf

    23/243

    ______________________________________________________ Elkin Castaño V. 23

    El siguiente ejemplo presenta el diagrama de dispersión

    tridimensional para X1, X2 y X3 con tres rotaciones.

          0 .      7

          0 .      8

          0 .      9

          1 .      0

          1 .      1

          1 .      2

          1 .      3

          1 .      4

          1 .      5

       X  1

        6     7

        8    9

        1    0

        1    1

        1    2

        1    3

        1    4

        1     5

        1    6

    X  2 

    100

    200

    300

          X      3

     

           0  .       7

           0  .

           8

           0  .       9

           1  .

           0

           1  .       1

           1  .       2

           1  .       3

           1  .       4

           1  .       5

        X   1

       6    7

       8   9

       1   0

       1   1

       1   2

       1   3

       1   4

       1    5

       1   6

    X  2  

     1 0 0

     2 0 0

     3 0 0

          X     3

     

  • 8/18/2019 4 Castaño_Análisis de datos multivariados.pdf

    24/243

    ______________________________________________________ Elkin Castaño V. 24

           0  .       7

           0  .       8

           0  .       9

           1  .       0

           1  .       1

           1  .       2

           1  .       3

           1  .       4

           1  .       5

        X   1

       6    7

       8   9

       1   0

       1   1

       1   2

       1   3

       1   4

       1    5

       1   6

    X  2  

           1       0       0

           2       0       0

           3       0       0

        X   3

     

     Matrices de dispersión o múltiples diagramas de

    dispersión:

    Presentan conjuntamente todos los diagramas de dispersión de

    los datos para cada par variables. Se pueden construir varias

    clases de matrices de dispersión, dependiendo del contenido

    en su diagonal. Por ejemplo:

  • 8/18/2019 4 Castaño_Análisis de datos multivariados.pdf

    25/243

    ______________________________________________________ Elkin Castaño V. 25

    a) con diagramas de puntos en la diagonalX1

       X   1

    X2 X3 X4

    X 1  

    X5

       X   2

      X 2  

       X   3

      X  3  

       X   4

      X 4  

    X1

       X   5

    X2 X3 X4 X5

    X  5  

     

    a) con gráficos de cajas en la diagonal

  • 8/18/2019 4 Castaño_Análisis de datos multivariados.pdf

    26/243

    ______________________________________________________ Elkin Castaño V. 26

    c) con histogramas en la diagonal

    d) con histogramas suavizados (curvas Kernel) en la diagonal

  • 8/18/2019 4 Castaño_Análisis de datos multivariados.pdf

    27/243

    ______________________________________________________ Elkin Castaño V. 27

     Representaciones pictóricas de datos multivariados:

    Son imágenes que representan los valores de tres o más

    variables medidas para cada individuo, objeto o unidadexperimental. A diferencia de los gráficos anteriores, no están

    diseñadas para transmitir información numérica absoluta. En

    general, su objetivo es ayudar a reconocer o observaciones

    similares. 

    Cuando se usan estos gráficos, se recomienda que todas lasvariables estén medidas en la misma escala. Si no es así, se

    deben emplear los datos estandarizados.

    Gráficos de estrellas:

    Suponga que los datos consisten de observaciones sobre p ≥ 2

    variables. Se obtienen de la siguiente manera. En dosdimensiones se construyen círculos de radio fijo con p rayos

    igualmente espaciados emanando del centro del círculo. Las

    longitudes de los rayos representan los valores de las

    variables.

  • 8/18/2019 4 Castaño_Análisis de datos multivariados.pdf

    28/243

    ______________________________________________________ Elkin Castaño V. 28

    Arizona Boston Central Common Consolid

    Florida Hawaiian Idaho Kentucky Madison

    Nevada NewEngla Northern Oklahoma Pacific

    Puget SanDiego Southern Texas Wisconsi

    United Virginia

    X1

    X2

    X3X4

    X5

    X6

    X7X8

    X9

     

    Curvas de Andrews:

    Es un método potente para identificar agrupamientos de

    observaciones. Las curvas de Andrews son las componentes de

    Fourier de los datos y el resultado para cada observación es

    una onda formada por funciones seno y coseno de sus

    componentes. Se construyen de la siguiente forma:

  • 8/18/2019 4 Castaño_Análisis de datos multivariados.pdf

    29/243

    ______________________________________________________ Elkin Castaño V. 29

    12 3 4 5( ) ( ) ( ) (2 ) (2 )

    2 j j

     x j j j j

     x f t x sen t x cos t x sen t x cos t = + + + + + ⋯ 

    donde t π π − < < .

    -180 -90 0 90 180

    Degrees

    -2

    -1

    0

    1

    2

    3

    4

       F  o  u  r   i  e  r

       C  o  m  p  o  n  e  n   t  s

     

  • 8/18/2019 4 Castaño_Análisis de datos multivariados.pdf

    30/243

    ______________________________________________________ Elkin Castaño V. 30

    Caras de Chernoff:

    Es otra forma efectiva de agrupar datos multivariados,

    particularmente para un procesamiento de la memoria de largoplazo. Fueron introducidas por Chernoff (1973), quien usa

    varias características de la cara para representar los datos de las

    variables. Algunos paquetes estadísticos permiten representar

    hasta 20 variables (SYSTAT), mientras que R permite asignar

    18 variables. Las características que SYSTAT permite asignar

    son:

    1 Curvatura de la boca2 Ángulo de la ceja3 Amplitud de la nariz4 Longitud de la nariz5 Longitud de la boca6 Altura del centro de la boca7 Separación de los ojos8 Altura del centro de los ojos9 Inclinación de los ojos10 Excentricidad de los ojos 11 Longitud media de los ojos12 Posición de las pupilas13 Altura de la ceja14 Longitud de la ceja15 Altura de la cara

    16 Excentricidad de la elipse superior de la cara17 Excentricidad de la elipse inferior de la cara18 Nivel de las orejas19 Radio de las orejas20 Longitud del cabello

  • 8/18/2019 4 Castaño_Análisis de datos multivariados.pdf

    31/243

    ______________________________________________________ Elkin Castaño V. 31

     

    Arizona Boston Central Common

    Consolid Florida Hawaiian Idaho

    Kentucky Madison Nevada NewEngla

    Northern Oklahoma Pacific Puget

    SanDiego Southern Texas Wisconsi

    United Virginia  

    Identificación de casos similares (grupos)

    0123

    45678

    X10

    Arizona Boston Central Common

    Consolid Florida Hawaiian Idaho

    Kentucky Madison Nevada NewEngla

    Northern Oklahoma Pacific Puget

    SanDiego Southern Texas Wisconsi

    United Vir inia  

  • 8/18/2019 4 Castaño_Análisis de datos multivariados.pdf

    32/243

    ______________________________________________________ Elkin Castaño V. 32

    Caras Asimétricas: Flury y Riedwyl (1981) proponen una nueva

    cara en la cual los parámetros del lado derecho de la cara pueden

    variar independientemente de los parámetros del lado izquierdo.Esta cara puede ser aplicada de la misma manera que las caras de

    Chernoff y permite representar hasta 36 variables, en lugar de las

    18 variables originales de Chernoff. Para dibujar estas caras se

    puede emplear el programa de uso libre FACEPLOT.

    Lecturas recomendadas:

    Jacob, R. J. K. (1983). Investigating the space of Chernoff faces. Recent advances in statistics: A festschrift in honor of Herman

    Chernoff’s sixtieth birthday. M. H. Rzvi, J.

  • 8/18/2019 4 Castaño_Análisis de datos multivariados.pdf

    33/243

    ______________________________________________________ Elkin Castaño V. 33

    Wang, P. C., ed. (1978). Graphical representation of multivariatedata. New York: Academic Press.

    Wilkinson, L (2007) “Cognitive Science and Graphic Design’,SYSTAT® 12 Graphics, SYSTAT Software, Inc.

    Wilkinson, L. (1982). An experimental evaluation of multivariategraphical point representations.  Human Factors in ComputerSystems: Proceedings. Gaithersburg, Md. 202–209.

    Empleo del programa R

    # lectura de los datos desde un archivo de textopubl_util

  • 8/18/2019 4 Castaño_Análisis de datos multivariados.pdf

    34/243

    ______________________________________________________ Elkin Castaño V. 34

    # pegado de las variables estandarizadas en la matriz XsXs

  • 8/18/2019 4 Castaño_Análisis de datos multivariados.pdf

    35/243

    ______________________________________________________ Elkin Castaño V. 35

     El conjunto de todos los puntos P cuya distancia

    cuadrática a O es la misma, satisface

    2 2 21 2 x x c+ = , con c>o

    El lugar geométrico corresponde a la circunferencia.

     En general, si P=(x1, x2, …, xp), su distancia euclidiana

    al origen O es

    2 2 21 2(0, ) ...  pd P x x x= + + +  

    y el conjunto de todos los puntos P cuya distancia

    cuadrática a O es la misma, satisface

    2 2 2 21 2 ...  p x x x c+ + + = , con c>o

    El lugar geométrico de estos puntos corresponde a una

    hiper-esfera.

    •  La distancia euclidiana generalmente no es satisfactoria en

    la mayoría de las aplicaciones estadística. El problema es

    que cada coordenada contribuye igualmente en su cálculo.

    Esto supone:

  • 8/18/2019 4 Castaño_Análisis de datos multivariados.pdf

    36/243

    ______________________________________________________ Elkin Castaño V. 36

     Que todos los puntos pueden ocurrir igualmente

     Que no existen relaciones entre ellos.

    •  Sin embargo, los datos generados por diferentes variables

    aleatorias pueden tener diferente variabilidad y estar

    relacionados.

    •  Debemos desarrollar una distancia que tenga en cuenta estas

    características.

    Supongamos que tenemos n pares de medidas para dos

    variables x1 y x2.

    Caso 1:  Las mediciones varían independientemente, pero la

    variabilidad de x1 es mayor que la de x2.

  • 8/18/2019 4 Castaño_Análisis de datos multivariados.pdf

    37/243

    ______________________________________________________ Elkin Castaño V. 37

    Una manera de proceder a calcular la distancia es

    “estandarizar” las coordenadas, es decir, se obtienen

    * *1 21 2

    11 22

    x xx y x

    s s= =  

    Las nuevas coordenadas tienen la misma variabilidad y para

    calcular la distancia se puede usar la distancia Euclidiana.

    Entonces, la distancia estadística de un punto P=( x1, x

    2) al

    origen (0, 0) es

    ( ) ( )2 22 2* * 1 2

    1 211 22

    (0, ) x x

    d P x xs s

    = + = +  

    El conjunto de todos los puntos P cuya distancia cuadrática

    a O es la misma, satisface

    2 221 2

    11 22

     x xc

    s s+ =   con c>o

    El lugar geométrico corresponde a una elipse centrada en el

    origen y cuyos ejes mayor y menor coinciden con los ejes de

    coordenadas.

  • 8/18/2019 4 Castaño_Análisis de datos multivariados.pdf

    38/243

    ______________________________________________________ Elkin Castaño V. 38

     

    La distancia anterior puede ser generalizada para calcular la

    distancia de un punto cualquiera P=(x1, x2) a un punto fijo

    Q=(y1, y2). Si las coordenadas varían independientemente

    unas de otras, la distancia estadística de P a Q esta dada por,

    ( ) ( )2 2

    1 1 2 2

    11 22

    ( , ) x y x y

    d P Qs s

    − −== +  

    La extensión a más de dos dimensiones es directa. Si P=(x1,

    x2, …, xp) y Q=(y1, y2, …, yp). Si las coordenadas varían

    independientemente unas de otras, la distancia estadística deP a Q fijo, está dada por

  • 8/18/2019 4 Castaño_Análisis de datos multivariados.pdf

    39/243

    ______________________________________________________ Elkin Castaño V. 39

    ( ) ( )   ( )22 2

    1 1 2 2

    11 22

    ( , ) p p

     pp

     x y x y x yd P Q

    s s s

    −− −= + + +⋯  

    El lugar geométrico corresponde a una hiperelipsoide

    centrada en Q y cuyos ejes mayor y menor son paralelos a

    los ejes de coordenadas.

    Observaciones:

    1. 

    La distancia de P al origen O se obtiene haciendo y1=y2=

    …= yp= 0.

    2.  Si s11= s22=… =spp, la fórmula de la distancia Euclidiana es

    apropiada.

    Caso 2.  Las variabilidades de las mediciones sobre las

    variables x1 y x2 son diferentes y están correlacionadas.

    Considere el siguiente gráfico

  • 8/18/2019 4 Castaño_Análisis de datos multivariados.pdf

    40/243

    ______________________________________________________ Elkin Castaño V. 40

     

    Se observa que si rotamos el sistema original de coordenadas a

    través del ángulo θ , mantenido los puntos fijos y denominando

    los nuevos ejes como 1 xɶ  y 2 xɶ , la dispersión en términos de los

    nuevos ejes es similar al caso 1. Esto sugiere, que para calcular

    la distancia estadística del punto P=( 1 2, x xɶ ɶ ) a origen O=(0, 0)

    se puede usar

    2 21 2

    11 22

    (0, )  x xd Ps s

    = +ɶ ɶ

    ɶ ɶ 

    donde las iisɶ  son varianzas muestrales de los datos 1 xɶ  y 2 xɶ .

    La relación entre las coordenadas originales y las rotadas es

  • 8/18/2019 4 Castaño_Análisis de datos multivariados.pdf

    41/243

    ______________________________________________________ Elkin Castaño V. 41

      1 1 2cos( ) ( ) x x x senθ θ = +ɶ  

    2 1 2( ) cos( ) x x sen xθ θ = − +ɶ  

    Dadas estas relaciones, podemos expresar la distancia de P al

    origen O en términos de las coordenadas originales como,

    2 211 1 22 2 12 1 2(0, ) 2d P a x a x a x x= + +  

    donde 11a , 22a  y 12a  son constantes tales que la distancia es

    no negativa para todos los posibles valores de x1 y x2.

    En general, la distancia estadística de un punto P=(x1, x2) a un

    punto fijo Q=(y1, y2), es

    2 211 1 1 22 2 2 12 1 1 2 2(0, ) ( ) ( ) 2 ( )( )d P a x y a x y a x y x y= − + − + − −  

    El conjunto de puntos P=(x1, x2) que tienen la misma distancia

    cuadrática al punto fijo Q=(y1, y2) satisfacen que

    2 211 1 1 22 2 2 12 1 1 2 2( ) ( ) 2 ( )( )a x y a x y a x y x y− + − + − − =c

    El lugar geométrico de estos puntos corresponde a una elipse

    centrada en Q y cuyos ejes mayor y menor son paralelos a los

    ejes rotados.

  • 8/18/2019 4 Castaño_Análisis de datos multivariados.pdf

    42/243

    ______________________________________________________ Elkin Castaño V. 42

     

    La generalización de las fórmulas a p dimensiones es directa.

    Sea P=(x1, x2, …, xp) un punto cuyas coordenadas representan

    variables que están correlacionadas y sujetas a diferente

    variabilidad, y sea Q=(y1, y2, …, yp) un punto. Entonces la

    distancia estadística de P a Q está dada por

    2 2 211 1 1 22 2 2 22

    12 1 1 2 2 13 1 1 3 3

    1, 1 1

    ( ) ( ) ( )

    (0, ) 2 ( )( ) 2 ( )( )

    2 ( )( )

     p p

     p p p p p p

    a x y a x y a x y

    d P a x y x y a x y x y

    a x y x y− − −

    − + − + + −

    = + − − + − −

    + + − −

     

    donde las constantes ik a   son tales que las distancias son

    siempre no negativas.

  • 8/18/2019 4 Castaño_Análisis de datos multivariados.pdf

    43/243

    ______________________________________________________ Elkin Castaño V. 43

    El lugar geométrico de todos los puntos P cuya distancia

    cuadrática a Q es la misma es una hiperelipsoide.

    Observaciones:

    1. Si las constantes ik a  son llevadas a una matriz simétrica de

    pxp de la forma

    11 12 1p

    12 22 2p

    1p 2p pp

    ...

    ...

    ...

    a a a

    a a a A

    a a a

    =

    ⋮ ⋮ ⋮ 

    Entonces la distancia estadística de P a Q, se puede escribir

    como,

    ( , ) ( ) ' ( )d P Q x y A x y= − −  

    donde

    1 1

    2 2

     p p

     x y

     x y x y

     x y

    − − =

    ⋮.

    2. Para que la distancia estadística sea no negativa, la matriz A

    debe ser definida positiva.

    3.  Cuando A=S-1, la distancia estadística definida como

  • 8/18/2019 4 Castaño_Análisis de datos multivariados.pdf

    44/243

    ______________________________________________________ Elkin Castaño V. 44

    1( , ) ( ) ' ( )d P Q x y S x y−= − −  

    Es llamada la distancia muestral de Mahalanobis y juega unpapel central en el análisis multivariado.

    La necesidad de usar la distancia estadística en lugar de la

    Euclidiana se ilustra heurísicamente a continuación. El

    siguiente gráfico presenta un grupo (cluster) de observaciones

    cuyo centro de gravedad (el vector de media muestrales) estáseñalado por el punto Q.

    La distancia Euclidiana del punto Q al punto P es mayor que la

    distancia de Q a O. Sin embargo, P es más parecido a los

    puntos en el grupo que O. Si tomamos la distancia estadística

  • 8/18/2019 4 Castaño_Análisis de datos multivariados.pdf

    45/243

    ______________________________________________________ Elkin Castaño V. 45

    de Q a P, entonces Q estará más cerca de P que de O, lo cual

    parece razonable dada la naturaleza de gráfico de dispersión.

    CAPÍTULO 2.

    VECTORES Y MATRICES ALEATORIAS

    •  Vector aleatorio: es un vector cuyas componentes son

    variables aleatorias.

    • 

    Matriz aleatoria: es una matriz cuyas componentes sonvariables aleatorias.

    •  Notación: Si X es una matriz de n x p cuyos elementos son

    Xij, se denota como

    X=[ Xij]

    •  Valor esperado de una matriz aleatoria:

    E(X)=

    11 12 1

    21 22 2

    1 2

    ( ), ( ),..., ( )

    ( ), ( ),..., ( )

    ( ), ( ),..., ( )

     p

     p

    n n np

     E X E X E X 

     E X E X E X 

     E X E X E X 

    ⋮ ⋮ ⋮ 

    donde, para cada elemento de la matriz

  • 8/18/2019 4 Castaño_Análisis de datos multivariados.pdf

    46/243

    ______________________________________________________ Elkin Castaño V. 46

    E(Xij)=( )

    ( )todos x

    ij

    ij ij ij ij ij R

    ij ij ij ij

     x f x dx para X continua

     x p x para X discreta

    ∫ ∑

     

    •  Vectores de media

    Suponga que X=

    1

    2

     p

     X 

     X 

     X 

    ⋮  es un vector aleatorio de px1.

    Entonces,

     Cada variable aleatoria Xi  tiene su propia distribución de

    probabilidades marginal la cual permite estudiar su

    comportamiento.

    Media marginal de Xi:

    ( )

    ( ) ( )todos xi

    i i i i i R

    i i i i i i

     x f x dx para X continua

     E X   x p x para X discreta µ 

    = = ∑

     

    A i  se le llama la media poblacional marginal de Xi.

    Varianza marginal de Xi:

  • 8/18/2019 4 Castaño_Análisis de datos multivariados.pdf

    47/243

    ______________________________________________________ Elkin Castaño V. 47

    2

    2 22

    ( ) ( )

    ( ) ( ) ( )todos xi

    i i i i i i R

    i i ii i i i i

     x f x dx para X continua

     E X   x p x para X discreta

     µ 

    σ µ   µ 

      −∫

    = − =   −∑

     

    A 2iσ   se le llama la varianza poblacional marginal de X i.

     El comportamiento conjunto de cada par de variables

    aleatorias Xi  y Xk  está descrito por su función de

    distribución conjunta.

    Una medida de asociación lineal: la covarianza poblacional

    ( )( )ik i i k k   E X X σ µ µ = − −  

    donde

    ( )( ) ( , )

    ( )( ) ( , )

    todos todos x xi

    i i k k ik i k i k i k   R R

    ik  i i k k ik i k i k  

     x x f x x dx dx para X y X continuas

     x x p x x para X y X discretas

     µ µ 

    σ    µ µ 

    − −∫ ∫

    =   − −∑ ∑

     

    A ik σ   se le llama la covarianza poblacional de Xi y Xk.

    Interpretación

    ik σ  >0 indica una asociación lineal positiva entre Xi y Xk.

    ik σ 

  • 8/18/2019 4 Castaño_Análisis de datos multivariados.pdf

    48/243

    ______________________________________________________ Elkin Castaño V. 48

    Debido a que la varianza poblacional de Xi es la covarianza

    poblacional entre Xi y Xi, a veces se denota 2iσ   como iiσ  .

    Otra medida de asociación lineal: la correlación

    ik ik 

    ii kk  

    σ  ρ 

    σ σ =  

    Interpretación:ik =1 indica una asociación lineal positiva perfecta entre Xi 

    y Xk.

    0< ik 

  • 8/18/2019 4 Castaño_Análisis de datos multivariados.pdf

    49/243

    ______________________________________________________ Elkin Castaño V. 49

     El comportamiento conjunto de las p variables aleatorias X1,

    X2, …, Xp, está descrita por la función de distribución

    conjunta o por su función de densidad de probabilidadconjunta f(x1, x2, …, xp), si todas las variables aleatorias son

    continuas.

    Las p variables aleatorias continuas son llamadas

    mutuamente estadísticamente independientes si

    f(x1, x2, …, xp)= f 1(x1) f 2(x2)… f n(xn)

    Si Xi, Xk  son estadísticamente independientes, entonces

    Cov(Xi, Xk)=0. Lo contrario no es necesariamente cierto.

    Vector de medias poblacional: El vector de p x 1,

    1

    2  ( )

     p

     E X  µ 

    = =

    ⋮ 

    es llamado el vector de medias poblacional.

    La matriz de varianza y covarianza poblacional: La

    matriz de p x p

  • 8/18/2019 4 Castaño_Análisis de datos multivariados.pdf

    50/243

    ______________________________________________________ Elkin Castaño V. 50

    11 12 1p

    21 22 2p

    1p 2p pp

    , , ,

    , , ,( )( ) '

    , , ,

     E X X 

    σ σ σ 

    σ σ σ  µ µ 

    σ σ σ 

    Σ = − − =

    ⋮ ⋮ ⋮

     

    Es llamada la matriz de varianza y covarianza (o de

    covarianza) poblacional.

    La matriz de correlación poblacional: La matriz de p x p

    12 1p

    12 2p

    1p 2p

    1, , ,

    , 1, ,

    , , , 1

     ρ 

     ρ 

     ρ ρ 

     ρ 

    =

    ⋮ ⋮ ⋮

     

    Es llamada la matriz de correlación poblacional.

    Relación entre Σ   y  ρ :

    Sea

    V1/2

    =

    11

    22

    0 0

    0 0

    0 0  pp

    σ 

    σ 

    σ 

    ⋮ ⋮ ⋮

     

    Entonces

  • 8/18/2019 4 Castaño_Análisis de datos multivariados.pdf

    51/243

    ______________________________________________________ Elkin Castaño V. 51

    1/ 2 1/ 2V V  ρ Σ =  

    y

    1/ 2 1 1/ 2 1

    ( ) ( )V V  ρ   − −

    = Σ  

    •  Vector de Media y la matriz de Covarianza de

    Combinaciones Lineales

    1. Una sola combinación lineal de las variables del vector

    aleatorio X. Sea

    1

    2

     p

    c

    cc

    c

    =

    ⋮ 

    y sea

    Z1=c1X1+ c2X2+…+ cpXp= 'c  Entonces,

    1 1 1 1 2 2( ) ... ' Z p p E Z c c c c µ µ µ µ = = + + + =  

    Var(Z1)= 2

    1 1 1

    ' p p p

    i ii i k ik  

    i i k 

    c c c c cσ σ 

    = = =

    + = Σ∑ ∑ ∑  

    2. q combinaciones lineales de las variables del vector

    aleatorio X. Sea

  • 8/18/2019 4 Castaño_Análisis de datos multivariados.pdf

    52/243

    ______________________________________________________ Elkin Castaño V. 52

    Z1=c11X1+ c12X2+…+ c1pXp 

    Z2=c21X1+ c22X2+…+ c2pXp

    ⋮ 

    ⋮ 

    Zq=cq1X1+ cq2X2+…+ cqpXp

    o,

    11 11 1p1 1

    2 21 21 2p 2

    q pq1 q1 qp

    , , ,

    , , ,

    , , ,

    c c c Z X 

     Z c c c X  Z CX 

     Z X c c c

    = = =

    ⋮ ⋮⋮ ⋮ ⋮

     

    Entonces,

    ( ) Z   E Z C  µ = =  

    ( )( ) ' ' Z Z Z  E Z Z CVC  µ Σ = − − =  

    Ejemplo. Suponga que X’=[X1, X2] es un vector aleatorio con

    vector de medias ' 1 2[ , ] X    µ µ = y matriz de covarianza

    11 12

    12 22

    σ σ 

    σ σ 

    Σ =

    . Encuentre el vector de medias y la matriz de

    covarianza del vector 1 21 2

     X X  Z 

     X X 

    − =

    + .

    Observe que 1 2 11 2 2

    1 1

    1 1

     X X X  Z CX 

     X X X 

    −   − = = =

    +    

  • 8/18/2019 4 Castaño_Análisis de datos multivariados.pdf

    53/243

    ______________________________________________________ Elkin Castaño V. 53

    Entonces,

    ( ) Z   E Z = =1 1 2

    2 1 2

    1 1

    1 1 X C 

     µ µ µ  µ 

     µ µ µ 

    −−   = =

    +  

    y,

    ( ) ' Z X Cov Z C C  Σ = = Σ =11 12

    12 22

    1 1 1 1

    1 1 1 1

    σ σ 

    σ σ 

    −  

    −  

    = 11 12 22 11 2211 22 11 12 22

    2

    2

    σ σ σ σ σ  

    σ σ σ σ σ  

    − + −

    − + +  

    CAPÍTULO 3.

    1. MUESTRAS ALEATORIAS

    • 

    Una observación multivariada consiste de las p medicionestomadas a una unidad experimental. Para la j-ésima unidad

    experimental,

      j X  =

    1

    2

     j

     j

     jp

     x

     x

     x

      , j=1,2,..,n

    es la j-ésima observación multivariada.

  • 8/18/2019 4 Castaño_Análisis de datos multivariados.pdf

    54/243

    ______________________________________________________ Elkin Castaño V. 54

    •  Si se eligen n unidades experimentales, antes de observarlas

    sus valores son aleatorios, y el conjunto completo de ellas

    puede ser colocado en una matriz aleatoria X de n x p,

    X=

    11 12 1p

    11 12 1p

    n1 n2 np

    , , ,

    , , ,

    , , ,

     X X X 

     X X X 

     X X X 

    ⋮ ⋮ ⋮

    =

    1

    2

    '

    '

    '

     n

     X 

     X 

     X 

     

    donde,

      j X  =

    1

    2

     j

     j

     jp

     X 

     X 

     X 

    ⋮  , j=1,2,..,n

    es la j-ésima observación multivariada.

    •  Muestra aleatoria: si los vectores X1, X2, …, Xn, son

    observaciones independientes de una misma distribución

    conjunta f(x)=f(x1, x2, …, xp), entonces X1, X2, …, Xn es

    llamada una muestra aleatoria de tamaño n de la población

    f(x).

    Observaciones:

  • 8/18/2019 4 Castaño_Análisis de datos multivariados.pdf

    55/243

    ______________________________________________________ Elkin Castaño V. 55

    1) Las mediciones de las p variables en una sola unidad

    experimental (o ensayo), generalmente estarán

    correlacionadas. Sin embargo, las mediciones paradiferentes unidades deben ser independientes.

    2) La independencia entre unidades experimentales puede

    no cumplirse cuando las variables son observadas en el

    tiempo. Por ejemplo, en un conjunto de precios de acciones

    o de indicadores económicos. La violación del supuesto deindependencia puede tener un serio impacto sobre la calidad

    de la inferencia estadística.

    •  Si X1, X2, …, Xn es una muestra aleatoria de una

    distribución conjunta con vector de medias  µ   y matriz de

    covarianzas Σ , entonces

    a) E( X )=  µ , es decir  X  es un estimador insesgado para  µ .

    b) Cov( X )= 1n

    Σ  

    c) E(Sn)=1n

    n

    −Σ , es decir Sn  no es un estimador insesgado

    para Σ .

    d) S=1

    n

    n −Sn  =

    1

    1( )( )´

    1   =− −

    −  ∑

     n

      j j

      j

     X X X X  n

      es un estimador

    insesgado para Σ .

  • 8/18/2019 4 Castaño_Análisis de datos multivariados.pdf

    56/243

    ______________________________________________________ Elkin Castaño V. 56

    2. VARIANZA GENERALIZADA

    •  Para una sola variable, la varianza muestral generalmente se

    usa para describir la variación de las mediciones de la

    variable.

    •  Cuando se observan p variables, una manera de describir su

    variación es usar la matriz de covarianzas muestral, S.

    S contiene p varianzas y p(p-1)/2 covarianzas, las cuales

    describen la variabilidad de los datos de cada variable y la

    asociación lineal para los datos de cada par de variables.

    •  Otra generalización de la varianza muestral es llamada la

    Varianza Generalizada muestral definida como,

    Varianza generalizada muestral=|S|

    A diferencia de S, |S| es un solo número.

    Interpretación geométrica:

    Considere el vector que contiene los datos para la i-ésima

    variable

  • 8/18/2019 4 Castaño_Análisis de datos multivariados.pdf

    57/243

    ______________________________________________________ Elkin Castaño V. 57

    1i

    2ii

    ni

    y

    yy

    y

    =

    ⋮ 

    y el vector de desviaciones con respecto a la media

    1i i

    2i ii

    ni i

    y x

    y xd

    y x

    − =

    ⋮ 

    Para i=1,2, sean Ld1 y Ld2 sus longitudes.

    El área del trapezoide es |Ld1sen(θ )|Ld2

    Dado que

    Ldi=n 2

     ji i ii j 1

    (x x ) (n 1)s=

    − = −∑ , i=1,2

  • 8/18/2019 4 Castaño_Análisis de datos multivariados.pdf

    58/243

    ______________________________________________________ Elkin Castaño V. 58

    y

    1212

    11 22

    sr cos( )

    s s  θ = =  

    Entonces

    (Área)2=(n-1)2|S|

    o,

    Varianza Generalizada muestral, |S|=(n-1)-2(Área)2 

    Por tanto, la VGM es proporcional al cuadrado del área generada

    por los vectores de desviaciones.

    En general, para p vectores de desviaciones,

    |S|=(n-1)-p(volumen)2 

    Es decir, para un conjunto fijo de datos, la VGM es proporcional

    al cuadrado del volumen generado por los p vectores de

    desviaciones.

    Observaciones:

    1) Para una muestra de tamaño fijo, |S| aumenta cuando:

    a) La longitud de cualquier di  aumenta (o cuando sii 

    aumenta.

  • 8/18/2019 4 Castaño_Análisis de datos multivariados.pdf

    59/243

    ______________________________________________________ Elkin Castaño V. 59

    b) Los vectores de desviaciones de longitud fija son

    movidos hasta que formen ángulos rectos con los demás.

    2) Para una muestra de tamaño fijo |S| será pequeña cuando:

    a)Uno de los sii son pequeños

    b)uno de los vectores cae cerca del hiperplano formado por

    los otros.

    c) Se dan los dos casos anteriores.

    La VGM también tiene interpretación en el gráfico de dispersión

    p dimensional que representa los datos. Se puede probar que el

    volumen de la hiper-elipsoide dada por

    p 1 2{x R : (x x) 'S (x x) c }−∈ − − ≤  

  • 8/18/2019 4 Castaño_Análisis de datos multivariados.pdf

    60/243

    ______________________________________________________ Elkin Castaño V. 60

    Es tal que

    Volumenp 1 2 1/ 2 p

    p({x R : (x x) 'S (x x) c }) k | S | c

    ∈ − − ≤ =  

    Es decir,

    (Volumen(hiper-elipsoide))2 constante|S|=  

    Por tanto, un volumen grande (datos muy dispersos) correspondea una VGM grande.

    Observación:

    Aunque la VGM tiene interpretaciones intuitivas importantes,

    sufre de debilidades.

    Ejemplo.  Interpretación de la varianza generalizada

    Suponga se tienen datos para tres vectores aleatorios

    bidimensionales tales que tienen el mismo vector de media

    muestral x'=[1, 2] y sus matrices de covarianza muestrales son

    5 4

    4 5S 

      =

    ¸

    3 0

    0 3S 

      =

      y

    5 4

    4 5S 

    − =

    −  

    Los diagramas de dispersión correspondientes son los siguientes:

  • 8/18/2019 4 Castaño_Análisis de datos multivariados.pdf

    61/243

    ______________________________________________________ Elkin Castaño V. 61

     

    Estos gráficos muestran patrones de correlación muy diferentes.

    Cada matriz de covarianza muestral contiene la información sobre

    la variabilidad de las variables y la información requerida para

    calcular el coeficiente de correlación muestral correspondiente.

    En este caso S captura la orientación y el tamaño del patrón dedispersión.

  • 8/18/2019 4 Castaño_Análisis de datos multivariados.pdf

    62/243

    ______________________________________________________ Elkin Castaño V. 62

    Sin embargo, la varianza generalizada muestral, |S| da el mismo

    valor, |S|=9 para los tres casos y no proporciona información

    sobre la orientación del patrón de dispersión. Solamente nosinforma que los tres patrones de dispersión tienen

    aproximadamente la misma área. Por tanto, la varianza

    generalizada es más fácil de interpretar cuando las muestras que

    se comparan tienen aproximadamente la misma orientación.

    Se puede probar que S contiene la información sobre laorientación y el tamaño del patrón de dispersión a través de sus

    valores propios y vectores propios:

    La dirección de los vectores propios determinan la direcciones de

    mayor variabilidad del patrón de dispersión de los datos, y

    valores propios proporcionan información sobre la variabilidad encada una de estas direcciones.

    La siguiente gráfica muestra, para cada patrón de dispersión, las

    direcciones de mayor variabilidad y el tamaño de ella.

  • 8/18/2019 4 Castaño_Análisis de datos multivariados.pdf

    63/243

    ______________________________________________________ Elkin Castaño V. 63

     

    3. LA VGM DETERMINADA POR R.

    La VGM, |S|, está afectada por las unidades de medición de cada

    variable.

    Por ejemplo, suponga que una sii  es grande o muy pequeña.

    Entonces, geométricamente, el correspondiente vector de

  • 8/18/2019 4 Castaño_Análisis de datos multivariados.pdf

    64/243

    ______________________________________________________ Elkin Castaño V. 64

    desviaciones di  es muy largo o muy corto, y por tanto será un

    factor determinante en el cálculo del volumen.

    En consecuencia, algunas veces es útil escalar todos los vectores

    de desviaciones de manera que todos tengan a misma longitud.

    Esto se puede hacer reemplazando las observaciones x jk  por su

    valor estandarizado  jk k kk(x -x )/ s . La matriz de covarianza

    muestral de las variables estandarizadas es R, que es la matriz decorrelación muestral de las variables originales.

    Se define,

    Varianza Generalizada

    muestral de las | |

    variablesestandarizadas

     R

    =

     

    Puesto que los vectores estandarizados

    1k k kk

     j2 k kk

    nk k kk

    (x -x )/ s

    (x -x )/ s

    (x -x )/ s

     

    para k=1, 2, …, p, tienen todos a misma longitud 1n − , la

    varianza generalizada muestral de las variables estandarizadas

  • 8/18/2019 4 Castaño_Análisis de datos multivariados.pdf

    65/243

    ______________________________________________________ Elkin Castaño V. 65

    será grande cuando estos vectores sean aproximadamente

    perpendiculares y será pequeña cuando dos o más vectores están

    casi en la misma dirección.

    Como para el caso de S, el volumen generado por los vectores de

    desviaciones de las variables estandarizadas está relacionado conla varianza generalizada como,

    2

    Varianza Generalizada

    muestral de las | | ( 1) (volumen)

    variablesestandarizadas

     p R n

      −

    = = −

     

    Las varianzas generalizadas |S| y |R| están conectadas por medio

    de la relación

    11 22 pp|S|= (s s ...s )|R|  

    Entonces,

  • 8/18/2019 4 Castaño_Análisis de datos multivariados.pdf

    66/243

    ______________________________________________________ Elkin Castaño V. 66

    p p11 22 pp(n-1) |S|=(n-1) (s s ...s )|R|  

    Lo que implica que el cuadrado del volumen al cuadrado p(n-1) |S|  es proporcional al volumen al cuadrado p(n-1) |R| .

    La constante de proporcionalidad es el producto de las varianzas,

    la cual a su vez es proporcional al producto de las longitudes

    cuadráticas de las (n-1)sii de las di.

    4. 

    OTRA GENERALIZACIÓN DE LA VARIANZA

    La varianza total muestral se define como

    varianza total muestral = s11+ s22 +…+ spp 

    Geométricamente, la varianza total muestral es la suma de los

    cuadrados de las longitudes de p vectores de desviaciones,

    dividido por n-1. Este criterio no tiene en cuenta la estructura de

    correlación de los vectores de desviaciones.

  • 8/18/2019 4 Castaño_Análisis de datos multivariados.pdf

    67/243

    ______________________________________________________ Elkin Castaño V. 67

    CAPÍTULO 4.

    LA DISTRIBUCIÓN NORMAL MULTIVARIADA

    1. INTRODUCCIÓN

    •  La generalización a varias dimensional de la densidad

    normal univariada juega un papel fundamental en el análisis

    multivariado.

    •  La importancia de la distribución normal multivariada se

    basa en su papel dual:

     Muchos de los fenómenos naturales del mundo real

    pueden ser estudiados por medio de la distribuciónnormal multivariada.

     Aunque el fenómeno estudiado no siga este modelo de

    distribución, las distribuciones de muchos de los

    estadísticos usados en el análisis multivariado tiene

    una distribución aproximadamente normalmultivariada.

  • 8/18/2019 4 Castaño_Análisis de datos multivariados.pdf

    68/243

    ______________________________________________________ Elkin Castaño V. 68

    2. LA DENSIDAD NORMAL MULTIVARIADA Y SUS

    PROPIEDADES

    • 

    Recuerde que la distribución normal univariada con media

     µ   y varianza 2σ    tiene una función de densidad de

    probabilidad dada por:

    212

    2

    1( )

    2

     x

     f x e x

     µ 

    σ 

    πσ 

    − −

    = − ∞ < < ∞  

    Si X es una variable aleatoria que sigue esta distribución, se

    denota como X ~ N( , 2σ  ).

    En la gráfica, están representadas las áreas bajo la curva dentrodel los intervalos σ ±   y 2 µ σ ± . Estas áreas son

    probabilidades y en la normal

    ( ) 0.68P X σ µ σ − ≤ ≤ + =  

  • 8/18/2019 4 Castaño_Análisis de datos multivariados.pdf

    69/243

    ______________________________________________________ Elkin Castaño V. 69

    ( 2 2 ) 0.95P X  µ σ µ σ − ≤ ≤ + =  

    •  El término en el exponente

    22 1( )( ) ( )

     x x x

     µ σ µ 

    σ 

    −− = − −

     

    Es la distancia cuadrática de x  a  µ   medida en unidades de

    desviación estándar. Esta cantidad puede ser generalizada para

    un vector p-dimensional x de observaciones sobre p variables,

    como

    1-(x-µ)' Σ (x-µ)  

    donde E(X)= y Cov(X)=Σ , con Σ   simétrica y definida

    positiva. La expresión 1-(x-µ)' Σ (x-µ)   es el cuadrado de la

    distancia generalizada de x a .

    •  La distribución normal multivariada puede ser obtenida

    reemplazando la distancia univariada por la distancia

    generalizada en la densidad de la normal univariada.

    •  Cuando se hace este reemplazo es necesario cambiar la

    constante 1/ 2 2 1/ 2(2 ) ( )π σ − −   de la normal univariada por una

    constante más general de forma tal que el volumen bajo la

  • 8/18/2019 4 Castaño_Análisis de datos multivariados.pdf

    70/243

    ______________________________________________________ Elkin Castaño V. 70

    superficie de la normal multivariada sea 1. La nueva

    constante es  / 2 1/ 2(2 ) | | pπ   − −Σ .

    •  La función de densidad de probabilidad normal multivariada

    para un vector aleatorio X es

    1

     / 2 1/ 2

    1(x- )' (x- )1 2(x)(2 ) | | p

     f e µ µ 

    π 

    −− Σ=

    Σ 

    donde  xi−∞ < < ∞ , i=1, 2, …, p.

    La distribución normal multivariada se denota como

    X ~ N( µ , Σ ).

    Ejemplo. La distribución normal bivariada

    Para p=2, la distribución normal bivariada tiene vector de medias

    1

    2

     µ   =

      y matriz de covarianza 11 12

    12 22

    σ σ 

    σ σ 

    Σ =

    .

    La matriz inversa de Σ  es

  • 8/18/2019 4 Castaño_Análisis de datos multivariados.pdf

    71/243

    ______________________________________________________ Elkin Castaño V. 71

    22 1212

    12 1111 22 12

    1   σ σ 

    σ σ σ σ σ 

    −   − Σ =

    −−    

    Reemplazando en la densidad multivariada general y haciendo

    operaciones, se obtiene que la densidad de la normal bivariada es

    2 2

    1 1 2 2 1 1 2 2122

    12 11 22 11 22

    12

    2(1 )

    1 2 211 22 12

    1( , )

    2 (1 )

     x x x x

     f x x e

     µ µ µ µ  ρ 

     ρ    σ σ σ σ  

    π σ σ ρ  

    − − − − − + − − =

     

  • 8/18/2019 4 Castaño_Análisis de datos multivariados.pdf

    72/243

    ______________________________________________________ Elkin Castaño V. 72

    • 

    Contornos de densidad de probabilidad constantes:

    La densidad de la normal multivariada es constante sobresuperficies donde la distancia cuadrática -1(x-µ)' Σ (x-µ)   es

    constante. Estos conjuntos de puntos son llamados contornos.

    Contorno de densidad

    probabilidad constante  = { }1 2x : (x ) ' (x ) c µ µ −− Σ − =  

    •  Un contorno corresponde a la superficie de una elipsoide

    centrada en . Los ejes están en la dirección de los vectores

    propios de Σ   y sus ejes son proporcionales a las raíces

    cuadradas de sus vectores propios.

    Si 1 2 ...  pλ λ λ ≥ ≥ ≥  son los valores propios de Σ  y e1, e2, …, ep,

    son los correspondientes vectores propios, donde e ei iiλ Σ = ,

    entonces el contorno dado por { }1 2x : (x )' (x ) c µ µ −− Σ − =   es

    una elipsoide centrada en y cuyo eje mayor es 1 1ec   λ ± , el

    segundo eje mayor es 2 2ec   λ ± , etc.

    Ejemplo: Contornos de una normal bivariada

    Considere la normal bivariada donde 11 22σ σ = . Los ejes de los

    contornos están dados por los valores y vectores propios de Σ .

  • 8/18/2019 4 Castaño_Análisis de datos multivariados.pdf

    73/243

    ______________________________________________________ Elkin Castaño V. 73

     Los valores propios se obtienen como solución a la

    ecuación | | 0 I λ Σ − = , o

    11 12 2 211 12 11 12 11 12

    12 11

    0 ( ) ( )( )σ λ σ 

    σ λ σ λ σ σ λ σ σ  σ σ λ 

    −= = − − = − − − +

    − 

    Por tanto los valores propios son

    1 11 12

    2 11 12

    λ σ σ 

    λ σ σ 

    = +

    = −

     

     El primer vector propio se determina como solución a

    1 1 1e eλ Σ = , es decir,

    11 12 11 1111 12

    12 11 21 21

    ( )e e

    e e

    σ σ σ σ 

    σ σ 

    = +

     

    o,

    11 11 12 21 11 12 11

    12 11 11 21 11 12 21

    ( )

    ( )

    e e e

    e e e

    σ σ σ σ  

    σ σ σ σ  

    + = +

    + = + 

    Estas ecuaciones implican que e11  = e21. Después de

    normalización, el primer par valor propio-vector propio es

  • 8/18/2019 4 Castaño_Análisis de datos multivariados.pdf

    74/243

    ______________________________________________________ Elkin Castaño V. 74

    1 11 12λ σ σ = +  , e1 =

    1

    21

    2

     

    De manera similar se determina el segundo vector propio

    como solución a 2 2 1e eλ Σ = , resultando el segundo par valor

    propio-vector propio

    2 11 12λ σ σ −=  , e2 =

    12

    1

    2

     

     Si la covarianza 12σ   ( o la correlación 12 ρ  ) es positiva:

    1 11 12λ σ σ = +   es el mayor valor propio y su vector propio

    asociado e1 =

    1

    21

    2

      cae sobre una recta de 45o a través de

    punto 1

    2

     µ  µ 

     µ 

    =

    . El eje mayor está determinado por

    11 12

    1

    21

    2

    c   σ σ 

    ± +

     

  • 8/18/2019 4 Castaño_Análisis de datos multivariados.pdf

    75/243

    ______________________________________________________ Elkin Castaño V. 75

    2 11 12λ σ σ −=  es el menor valor propio y su vector propio

    asociado e2 =

    1

    21

    2

      cae sobre una recta perpendicular a la

    recta de 45o  a través de punto 12

     µ   =

    . El eje menor está

    determinado por

    11 12

    12

    1

    2

    c   σ σ 

    ± −

     

     Si la covarianza 12σ   ( o la correlación 12 ρ  ) es negativa:

  • 8/18/2019 4 Castaño_Análisis de datos multivariados.pdf

    76/243

    ______________________________________________________ Elkin Castaño V. 76

    2 11 12λ σ σ −=  es el mayor valor propio y su vector propio

    asociado e2 =

    1

    21

    2

      cae sobre una recta perpendicular a la

    recta de 45o a través de punto 12

     µ   =

    . El eje mayor está

    determinado por

    11 12

    1

    21

    2

    c   σ σ 

    ± −

     

    1 11 12λ σ σ = +   es el menor valor propio y su vector propio

    asociado e1 =

    1

    21

    2

      cae sobre una recta de 45o a través de

    punto 12

     µ   =

    . El eje menor está determinado por

    11 12

    1

    2

    12

    c   σ σ 

    ± +

     

  • 8/18/2019 4 Castaño_Análisis de datos multivariados.pdf

    77/243

    ______________________________________________________ Elkin Castaño V. 77

    •  La densidad normal multivariada tiene un máximo valor

    cuando la distancia cuadrática -1(x-µ)' Σ (x-µ)  es igual a cero, es

    decir, cuando x= . Por tanto el punto es el punto demáxima densidad, o la moda, y también es la media.

    Contornos para las distribuciones normales bivariadas graficadas

    3. OTRAS PROPIEDADES DE LA DISTRIBUCIÓN NORMALMULTIVARIADA

    1. Si un vector aleatorio X ~ N( , Σ ), entonces toda

    combinación lineal de las variables en X,

    1 1 2 2' ...  p pa X a X a X a X  = + + +  tiene una distribución N( ' , 'a a aΣ ).

    2. Si 'a X  tiene una distribución N( ' , 'a a aΣ ) para todo vector de

    constantes 1 2, ,...,  pa a a a = , entonces X ~ N( , Σ ).

  • 8/18/2019 4 Castaño_Análisis de datos multivariados.pdf

    78/243

    ______________________________________________________ Elkin Castaño V. 78

    3. Si un vector aleatorio X ~ N( , Σ ), entonces el vector de q

    combinaciones lineales de X,

    11 1 12 2 1

    21 1 22 2 2

    1 1 2 2

     p p

     p p

    q q qp p

    a X a X a X  

    a X a X a X   AX 

    a X a X a X  

    + + +

    + + + =

    + + +

     

    tienen una distribución N( , ' A A AΣ ).

    Ejemplo.

    Suponga que X ~ N3( , Σ ) y considere el vector de

    combinaciones lineales

    11 2

    22 3

    3

    1 1 0

    0 1 1

     X  X X  X AX 

     X X  X 

    −   −     = =     −   −

     

    Entonces AX ~ N2( , ' A A AΣ ), donde

     A   =  1 1 22

    2 33

    1 1 00 1 1

     µ   µ  µ 

     µ  µ 

    −−   =   −−  

     

    y

  • 8/18/2019 4 Castaño_Análisis de datos multivariados.pdf

    79/243

    ______________________________________________________ Elkin Castaño V. 79

    ' A AΣ =  11 12 13

    12 22 23

    13 23 33

    1 01 1 0

    1 10 1 1

    0 1

    σ σ σ 

    σ σ σ 

    σ σ σ 

    − − −

     

    ' A AΣ = 11 22 12 12 23 22 13

    12 23 22 13 22 33 23

    2

    2

    σ σ σ σ σ σ σ  

    σ σ σ σ σ σ σ  

    + − + − −

    + − − + −  

    4. Si un vector aleatorio X ~ Np( , Σ ), entonces todos los

    subconjuntos de variables de X tienen distribución normal

    multivariada.

    Ejemplo. 

    Suponga que X ~ N5( , Σ ). Encuentre la distribución del

    subvector 12

     X 

     X 

    .

    Sea X=

    1

    21

    32

    4

    5

    X

    X

     X 

     X 

     X 

     X 

     X 

     =  

    , donde 1X =1

    2

     X 

     X 

    .

    Entonces, por el resultado anterior

    1X  ~ N2 1 11 122 12 22

    , µ σ σ 

     µ σ σ 

     

  • 8/18/2019 4 Castaño_Análisis de datos multivariados.pdf

    80/243

    ______________________________________________________ Elkin Castaño V. 80

    5. Si X= 12

     X 

     X 

      ~1 2

    1 11 12

    2 21 22

    ,q q N  +    Σ Σ  

    Σ Σ

     µ  µµ  µ 

     µ  µµ  µ , donde X1 es de q1x1,

    X2 es de q2x1, 1 µ  µµ  µ   es el vector de medias de X1, 2 µ  µµ  µ   es el vectorde medias de X2, 11Σ  es la matriz de covarianza de X1, 22Σ  es la

    matriz de covarianza de X2  y 12Σ  es la matriz de covarianza entre

    las variables X1  y X2, entonces X1  y X2  son independientes

    estadísticamente si y sólo si 12Σ =0.

    Ejemplo. 

    Suponga que X ~ N3( , µ   Σ ), con4 1 0

    1 3 0

    0 0 2

    Σ =

    .

    Son X 1 y  X 2  independientes? No porque 12 0σ    ≠ .

    Son 12

     X 

     X 

      y  X 3  independientes?

    Observe que la matriz de covarianza entre 12

     X 

     X 

      y  X 3  es

    cov 131

    2 23

    X 0 , X3

    X 0

    σ 

    σ 

        = =    

     

    Por tanto, 12

     X 

     X 

      y  X 3 son independientes.

  • 8/18/2019 4 Castaño_Análisis de datos multivariados.pdf

    81/243

    ______________________________________________________ Elkin Castaño V. 81

    Además cada componente de 12

     X 

     X 

     es independiente de  X 3.

    6. Si X= 12

     X 

     X 

     ~1 2

    1 11 12

    2 21 22

    ,q q N  +    Σ Σ  

    Σ Σ

     µ  µµ  µ 

     µ  µµ  µ , donde X1 es de q1x1, X2 

    es de q2x1. Entonces la distribución condicional de X1 dado X2 =

    x2  es normal multivariada con vector de media

    1

    1.2 1 12 22 21

    = + Σ Σ Σ µ µ  µ µ  µ µ  µ µ   

    y matriz de covarianza

    11.2 11 12 22 21

    −Σ = Σ − Σ Σ Σ  

    Ejemplo.Suponga que X ~ N2( , µ   Σ ). Encuentre la distribución condicional

    de X 1 dado X 2=x2.

    Por resultado anterior, la distribución condicional de

     X 1 / X 2=x2 ~ N( )1.2 1.2, µ    Σ  

    donde

    11.2 11 12 22 2 2(x )

    −= Σ + Σ Σ − = µ µ  µ µ  µ µ  µ µ    111 12 22 2 2( ) xσ σ σ µ  

    −+ −  

  • 8/18/2019 4 Castaño_Análisis de datos multivariados.pdf

    82/243

    ______________________________________________________ Elkin Castaño V. 82

    21 1 12

    1.2 11 12 22 21 11 12 22 12 1122

    σ σ σ σ σ σ  

    σ 

    − −Σ = Σ − Σ Σ Σ = − = −  

    Observaciones.

    i)  En la regresión multivariada, la media condicional

    1.2 1 2( / ) E X X  µ    =  es llamada la curva de regresión.

    Sea

    1, 1 1, 2 1,

    2, 1 2, 2 2,112 22

    , 1 , 2 ,

    q q p

    q q p

    q q q q q p

     β β β  β β β 

     β β β 

    + +

    + +−

    + +

    Σ Σ =

    ⋮ ⋮ ⋮

    .

    Entonces la curva de regresión en la normal multivariada,

    1.2 1 2( / ) E X X  µ    = , se puede escribir como

    1 2( / ) E X X 

    1 1 2

    2 1 2

    1 2

    ( / , , , , )

    ( / , , , , )

    ( / , , , , )

    q q p

    q q p

    q q q p

     E X X X X 

     E X X X X 

     E X X X X 

    + +

    + +

    + +

    =

    = 11 12 22 2 2(x )−

    + Σ Σ − µ µ  µ  µ µ  µ   

    =

    1 1, 1 1 1 1, 2 2 2 1,

    2 2, 1 1 1 2, 2 2 2 2,

    , 1 1 1 , 2 2 2 ,

    ( ) ( ) ( )

    ( ) ( ) ( )

    ( ) ( ) ( )

    q q q q q q p p p

    q q q q q q p p p

    q q q q q q q q q q p p p

     x x x

     x x x

     x x x

     µ β µ β µ β µ 

     µ β µ β µ β µ 

     µ β µ β µ β µ 

    + + + + + +

    + + + + + +

    + + + + + +

    + − + − + + −

    + − + − + + −

    + − + − + + −

     

  • 8/18/2019 4 Castaño_Análisis de datos multivariados.pdf

    83/243

    ______________________________________________________ Elkin Castaño V. 83

    Es decir,

    1 1 2 01 1, 1 1 1, 2 2 1,

    2 1 2 02 2, 1 1 2, 2 2 2,

    1 2 0 , 1 1 , 2 2 ,

    ( / , , , , )( / , , , , )

    ( / , , , , )

    q q p q q q q p p

    q q p q q q q p p

    q q q p q q q q q q q q p p

     E X X X X x x x

     E X X X X x x x

     E X X X X x x x

     β β β β  β β β β 

     β β β β 

    + + + + + +

    + + + + + +

    + + + + + +

    + + + +

    + + + + =

    + + + +

    ⋯ ⋯

    ⋯ ⋯

    ⋮ ⋮

    ⋯ ⋯

     

    Esto implica que, cuando la distribución conjunta de las

    variables en una regresión (dependientes e independientes)

    es normal multivariada, todas las curvas de regresión son

    lineales.

    ii) La matriz de covarianza condicional 11.2 11 12 22 21−

    Σ = Σ − Σ Σ Σ  

    es constante pues no depende de los valores de las variables

    condicionantes. Por tanto, la curva de regresión es

    homocedástica.

    7. Si un vector aleatorio X ~ N( , µ   Σ ), entonces

    1-(x-µ)' Σ (x-µ) ~ 2 p  

  • 8/18/2019 4 Castaño_Análisis de datos multivariados.pdf

    84/243

    ______________________________________________________ Elkin Castaño V. 84

    4. MUESTREO EN LA DISTRIBUCIÓN NORMAL MULTIVARIADA

    Y ESTIMACIÓN DE MÁXIMA VEROSIMILITUD 

    Suponga que 1 2, ,..., , n X X X    es una muestra aleatoria de una

    población N( , µ   Σ ).

    Entonces, la función de densidad de probabilidad conjunta

    de 1 2, ,...,   n X X X   es

    ( ) ( )1 j j1

    x ' x2

    1 2 n  / 2 1/ 21

    1(x ,x ,..., x )

    (2 ) | |

    −− − Σ −

    =

    = ∏ 

    Σ

     µ µ  µ µ  µ µ  µ µ 

    π ππ π 

     n

     p  j

     f e  

    1 1x ' x j j21 1(x ,x ,...,x )n1 2  / 2  / 2(2 ) | |

    −− − Σ −∑=

     µ µ  µ µ  µ µ  µ µ 

    π ππ π 

     n

      j f e

     np   n 

    Cuando se observan los valores de la muestra y son sustituidos la

    función anterior, la ecuación es considerada como una función de

     µ  µ   y Σ   dadas las observaciones x1, x2, …, xn  y es llamada la

    función de verosimilitud . Se denotará como ( , ) L   Σ .

    Una manera de obtener los estimadores para y Σ   es

    seleccionarlos como aquellos que maximicen a ( , ) L   Σ . Este

    procedimiento proporciona los estimadores máximo verosímiles 

    para y Σ , dados por

  • 8/18/2019 4 Castaño_Análisis de datos multivariados.pdf

    85/243

    ______________________________________________________ Elkin Castaño V. 85

    ˆ  X  µ  =  

    1

    1 1ˆ ( )( ) 'n

     j j j

    n X X X X S 

    n n=

    −Σ = − − =∑  

    Los valores observados de ˆ   y Σ̂   son llamadas estimaciones

    máximo verosímiles (EMV) de y Σ .

    Propiedades.

    Los estimadores máximo verosímiles poseen la propiedad de

    invarianza. Sea θ̂   el EMV para θ , y sea ( )h θ    una función

    continua de θ . Entonces el EMV para ( )h θ   está dado por ˆ( )h θ  .

    Es decir ˆ( ) ( )h hθ θ = .

    Por ejemplo, el EMV para la función ' µ µ Σ  es ˆˆ ˆ' µ µ Σ .

    El EMV para iiσ    es ˆiiσ  ”, donde

    2

    1

    1ˆ ( )

    n

    ii ji i j

     X X n

    σ =

    = −∑  

    es el EMV para ( )ii iVar X  σ    =  

  • 8/18/2019 4 Castaño_Análisis de datos multivariados.pdf

    86/243

    ______________________________________________________ Elkin Castaño V. 86

    5. DISTRIBUCIONES MUESTRALES DE  X  y S

    Suponga que 1 2, ,..., , n X X X    es una muestra aleatoria de unapoblación Np( , Σ ). Entonces,

    1. ~ X   Np(1

    ,n

     µ    Σ ).

    2. (n-1)S tiene una distribución Wishart con n-1 grados delibertad, la cual es una generalización de la distribución chi-

    cuadrado.

    3.  X   y S son independientes estadísticamente.

    6. COMPORTAMIENTO DE  X  y S EN MUESTRAS GRANDES

    •  La ley de los grandes números. Sean Y1, Y2, …, Yn 

    observaciones independientes de una población univariada con

    media E(Yi)= . Entonces,1

    1 n jY Y 

    n ==   ∑   converge en

    probabilidad a la verdadera media , a medida que n crece sincota. Es decir, que para todo 0ε  > , 

    lim | | 1n P Y    µ ε →∞   − < =  

  • 8/18/2019 4 Castaño_Análisis de datos multivariados.pdf

    87/243

    ______________________________________________________ Elkin Castaño V. 87

    Empleando este resultado fácilmente se puede probar que, en

    el caso multivariado,

     El vector  X   converge en probabilidad al vector  µ  

     S o Σ̂   convergen en probabilidad a Σ .

    La interpretación práctica de estos resultados es que:

     No se requiere de normalidad multivariada para que se de la

    convergencia. Solamente se necesita que exista el vector de

    medias poblacional.

     Con alta probabilidad  X   estará cerca al vector  µ   y S

    estará cerca a Σ  cuando el tamaño muestral es grande.

    •  Teorema Central del Límite. Suponga que 1 2, ,..., , n X X X   son

    observaciones independientes de una población con vector de

    medias y matriz de covarianza Σ . Entonces, 

    ( )n X  −  tiene aproximadamente una distribución Np( , Σ0 ).

    o,

     X  tiene aproximadamente una distribución Np(1

    ,n

     µ    Σ )

  • 8/18/2019 4 Castaño_Análisis de datos multivariados.pdf

    88/243

    ______________________________________________________ Elkin Castaño V. 88

      cuando n-p es grande.

     

    Observe la diferencia con el caso en el cual la muestra estomada de una población Np( , Σ ) donde  X   tiene

    exactamente una distribución Np(1

    ,n

     µ    Σ ).

    •  Suponga que 1 2, ,..., , n X X X    son observaciones independientes

    de una población con vector de medias  µ   y matriz decovarianza Σ . Entonces,

    1( ) ' ( )n X S X    µ −− − tiene aproximadamente una distribución 2 p  

    cuando n-p es grande.

    7. VERIFICACIÓN DEL SUPUESTO DE NORMALIDAD

    MULTIVARIADA

    •  La mayoría de las técnicas del análisis multivariado supone

    que las observaciones proceden de una población normalmultivariada.

    •  Sin embargo, si la muestra es grande, y las técnicas empleadas

    solamente depende del comportamiento de  X   o de distancias

  • 8/18/2019 4 Castaño_Análisis de datos multivariados.pdf

    89/243

    ______________________________________________________ Elkin Castaño V. 89

    relacionadas con  X   de la forma 1( ) ' ( )n X S X   µ µ −− − , el

    supuesto de normalidad es menos crucial, debido a los

    resultados límites antes vistos. Sin embargo, la calidad de lainferencia obtenida por estos métodos depende de qué tan

    cercana esté la verdadera población de la distribución normal

    multivariada.

    •  Por tanto es necesario desarrollar procedimientos que permitan

    detectar desviaciones de la población patrón con respecto a lanormal multivariada.

    •  Basados en las propiedades de la distribución normal

    multivariada, sabemos que todas las combinaciones lineales de

    las variables de vector son normales y que los contornos de la

    distribución normal multivariada son elipsoides. Por tanto, en

    la verificación de la normalidad multivariada se debería

    responder a:

     Las marginales de las variables en el vector X parecen ser

    normales?

     

    Algunas combinaciones lineales de las variables en X

    parecen ser normales?

     Los diagramas de dispersión de los pares de variables de X

    presentan una apariencia elíptica?

  • 8/18/2019 4 Castaño_Análisis de datos multivariados.pdf

    90/243

    ______________________________________________________ Elkin Castaño V. 90

      Existen observaciones inusuales que deberían ser

    confirmadas?

    Evaluación de la normalidad univariada 

    •  Las ayudas gráficas siempre importantes en el análisis. Por

    ejemplo:

     

    Para n pequeños se usan los diagramas de puntos. Para moderados y grandes se usan el gráfico de cajas y los

    histogramas

    Estos gráficos permiten detectar asimetrías, es decir

    situaciones donde una cola es más grande que la otra.

    Si los gráficos para Xi parecen razonablemente simétricos, se

    procede a chequear el número de observaciones en ciertos

    intervalos. La distribución normal asigna probabilidad de 0.683

    al intervalo ( , )i i i i µ σ µ σ − + y de 0.954 al intervalo

    ( 2 , 2 )i i i i µ σ µ σ − + . Por tanto, para n grande se esperaría que:

    La proporción 1ˆ i p  de observaciones que caen en el intervalo

    ( , )i ii i ii x s x s− + esté alrededor de 0.683.

  • 8/18/2019 4 Castaño_Análisis de datos multivariados.pdf

    91/243

    ______________________________________________________ Elkin Castaño V. 91

    Similarmente, la proporción 2ˆ i p  de observaciones que caen

    en el intervalo ( 2 , 2 )i ii i ii x s x s− + esté alrededor de 0.954.

    Usando la aproximación normal para las proporciones

    muestrales, es decir, que para n grande

    (1 )ˆ ,dist  ik ik  ik ik  

     p p p N p

    n

    −  →

    , k=1,2. Entonces si,

    1 (0.683)(0.317) 1.396ˆ| 0.683| 3i pn n

    − > =  

    o si,

    2(0.954)(0.046) 0.628

    ˆ| 0.954 | 3i pn n

    − > =  

    Sería indicativo de alejamientos de la distribución normal.

    •  El gráfico cuantil-cuantil o gráfico Q-Q. Son gráficos

    especiales que pueden se usados para evaluar la normalidad de

    cada variable.

     En ellos se grafican los cuantiles muestrales contra los

    cuantiles que se esperaría observar si las observaciones

    realmente provienen de una distribución normal.

  • 8/18/2019 4 Castaño_Análisis de datos multivariados.pdf

    92/243

    ______________________________________________________ Elkin Castaño V. 92

     Los pasos para construir un gráfico Q-Q son:

    i) 

    Ordene las observaciones originales de menor amayor. Sean x(1), x(2), …, x(n). Las probabilidades

    correspondientes a ellos son (1-12)/n, (2- 1

    2)/n, …,

    (n- 12)/n.

    ii)  Calcule los cuantiles de la normal estándar q(1), q(2),

    …, q(n), correspondientes a dichas probabilidades.iii)  Grafique los pares de observaciones (q(1), x(1)),

    (q(2),x(2)), …, (q(n), x(n)).

    Si los datos proceden de una distribución normal, estos pares

    estarán aproximadamente relacionados por la relación lineal

    x(j)   σ +≃ q(j). Por tanto, cuando los puntos caen muy próximos a

    una línea recta, la normalidad es sostenible.

    Ejemplo.

    Considere una muestra de n=10 observaciones, las cuales fueron

    ordenadas de menor a mayor en la siguiente tabla.

  • 8/18/2019 4 Castaño_Análisis de datos multivariados.pdf

    93/243

    ______________________________________________________ Elkin Castaño V. 93

     

    Por ejemplo, el cálculo del cuantil de la N(0,1), para unaprobabilidad de 0.65 busca el cuantil que satisface

    (7)[ ] 0.65P Z q≤ =  

    Para esta distribución, el cuantil es q(7)=0.385, puesto que

    20.385  / 21[ 0.385] 0.652

     zP Z e dz

    π 

    −−∞

    ≤ = =∫  

    L