48
VI curso de Análisis de Datos (30 Marzo de 2009) Análisis multivariante Introducción a las técnicas de “Análisis Multivariante” Fco. Javier Burguillo Universidad de Salamanca

Introducción a las técnicas de “Análisis Multivariante”simfit.usal.es/casos/curso2009/multivariante_Simfit.pdf · •Regresión lineal múltiple ... (3 por ej.) VI curso de

  • Upload
    buikiet

  • View
    216

  • Download
    1

Embed Size (px)

Citation preview

Page 1: Introducción a las técnicas de “Análisis Multivariante”simfit.usal.es/casos/curso2009/multivariante_Simfit.pdf · •Regresión lineal múltiple ... (3 por ej.) VI curso de

VI curso de Análisis de Datos (30 Marzo de 2009) Análisis multivariante

Introducción a las técnicas de “Análisis Multivariante”

Fco. Javier Burguillo Universidad de Salamanca

Page 2: Introducción a las técnicas de “Análisis Multivariante”simfit.usal.es/casos/curso2009/multivariante_Simfit.pdf · •Regresión lineal múltiple ... (3 por ej.) VI curso de

VI curso de Análisis de Datos (30 Marzo de 2009) Análisis multivariante

• Objetivo: estudio de varias variables simultáneamente:

Análisis multivariante

•Métodos con variable dependienteHay una variable que “depende” de otras que se miden como “independientes o predictoras”.Tienen un interés predictivo.

0.20.42405100Objeto 3

...

0.5

0.1

X4

...

32

126

X3

...

0.3

0.7

X5

.............

3624Objeto 2

3412Objeto 1

X2X1

• Métodos con sólo variables independientesNo se distingue entre variables dependientes e independientes. Tienen un interés descriptivo en el sentido de clasificar objetos en función de las variables.

Page 3: Introducción a las técnicas de “Análisis Multivariante”simfit.usal.es/casos/curso2009/multivariante_Simfit.pdf · •Regresión lineal múltiple ... (3 por ej.) VI curso de

VI curso de Análisis de Datos (30 Marzo de 2009) Análisis multivariante

Métodos con variable dependiente

0.20.42405100Objeto 3

...

0.5

0.1

X2

...

32

126

X2

...

0.3

0.7

X4

.............

3624Objeto 2

3412Objeto 1

X1y

•Regresión lineal múltiple

•Regresión lineal generalizada

Regresión logística binariaRegresión logit

Page 4: Introducción a las técnicas de “Análisis Multivariante”simfit.usal.es/casos/curso2009/multivariante_Simfit.pdf · •Regresión lineal múltiple ... (3 por ej.) VI curso de

VI curso de Análisis de Datos (30 Marzo de 2009) Análisis multivariante

Métodos con sólo variables independientes

0.20.42405100Objeto 3

...

0.5

0.1

X4

...

32

126

X3

...

0.3

0.7

X5

.............

3624Objeto 2

3412Objeto 1

X2X1Análisis de clusters

a) No se conocen los grupos de los objetos

b) Sí que se conocen los grupos de los objetos

0.20.424052Objeto 3

37

0.5

0.1

X4

45

32

126

X3

0.3

0.3

0.7

X5

232Objeto 4

361Objeto 2

341Objeto 1

X2Grupo

Métodos biplot

MANOVA

Análisis en variables canónicas

Análisis discriminante

Jerárquicos K-medias

Análisis de componentes principales

Page 5: Introducción a las técnicas de “Análisis Multivariante”simfit.usal.es/casos/curso2009/multivariante_Simfit.pdf · •Regresión lineal múltiple ... (3 por ej.) VI curso de

VI curso de Análisis de Datos (30 Marzo de 2009) Análisis multivariante

Bx Crecta ylínea ejemplopor

:nteindependie leuna variab Sólo

+=∗

Ahora: la regresión lineal múltipleLa regresión lineal simple

..........bb

SSQ)

.........aa

SSQ)

bxa(ySSQ ii

=⇒==∂

=⇒==∂

+−= ∑

0...............(

0...............(

))( 2

• Se puede explicitar cada parámetro, solución única, método exacto

3 32211 xBxBxBC y

:nteindependie leuna variab de Más

+++=∗

• Se puede explicitar cada parámetro, solución única, método exacto

• Tratamiento matemático análogo a regresión lineal simple.

Regresión lineal múltiple por mínimos cuadrados

Page 6: Introducción a las técnicas de “Análisis Multivariante”simfit.usal.es/casos/curso2009/multivariante_Simfit.pdf · •Regresión lineal múltiple ... (3 por ej.) VI curso de

VI curso de Análisis de Datos (30 Marzo de 2009) Análisis multivariante

Ejemplo de regresiEjemplo de regresi óón lineal mn lineal m úúltipleltiple

•La aplicación importante es estimar “Masa” tumoral p ara un caso nuevo

Page 7: Introducción a las técnicas de “Análisis Multivariante”simfit.usal.es/casos/curso2009/multivariante_Simfit.pdf · •Regresión lineal múltiple ... (3 por ej.) VI curso de

VI curso de Análisis de Datos (30 Marzo de 2009) Análisis multivariante

.....)1(1

)1(log 3122110 XaXaXaaL

p

p ++++++++========−−−−

++++

y(i) 1=vivo0=muerto

variables: X1 , X2 , X3 ,...... p(1) = probabilidad de que y = 1

Le

p −−−−++++====1

1)1(

• La aplicación importante es estimar p(1) para un caso nuevo:

(ej: p(1) = 0.73 de sobrevivir)

RegresiRegresi óón logn log íística binariastica binaria

Page 8: Introducción a las técnicas de “Análisis Multivariante”simfit.usal.es/casos/curso2009/multivariante_Simfit.pdf · •Regresión lineal múltiple ... (3 por ej.) VI curso de

VI curso de Análisis de Datos (30 Marzo de 2009) Análisis multivariante

Análisis de clusters

......................

0.2...2405100Objeto 3

...

...

...

54

32

126

X3

0.8

0.3

0.7

Xm

7727Objeto n

3624Objeto 2

3412Objeto 1

X2X1

Dada una serie de “n” objetos y “m” variables X1, X2,…, Xm, el propósito es clasificar los objetosen grupos (clusters) según la similitud (menor distancias) entreellos:

Dada una serie de “n” objetos y “m” variables X1, X2,…, Xm, el propósito es clasificar los objetosen grupos (clusters) según la similitud (menor distancias) entreellos:

Procedimientos:

Aglomerativos o divisivos

Jerárquicos

Supervisados (k-medias)

Page 9: Introducción a las técnicas de “Análisis Multivariante”simfit.usal.es/casos/curso2009/multivariante_Simfit.pdf · •Regresión lineal múltiple ... (3 por ej.) VI curso de

VI curso de Análisis de Datos (30 Marzo de 2009) Análisis multivariante

Análisis de 20 pacientes

¿Transformar variables?

Sin transformar

AnAn áálisis jerlisis jer áárquico de clusters (Ejemplo)rquico de clusters (Ejemplo)

Métrica distancia entre objetos

∑=

−=m

k

jkikijxxd

1

Algoritmo de unión de clusters

(((( ))))ddd ikijjki,min

,====

Los 20 pacientes se agrupan (dendrograma)

CML ALL AML RCML

4 grupos

0.2240510Objeto 3

...

32

126

X3

...

0.3

0.7

….

.............

3624Objeto 2

3412Paciente 1

X2X1

Page 10: Introducción a las técnicas de “Análisis Multivariante”simfit.usal.es/casos/curso2009/multivariante_Simfit.pdf · •Regresión lineal múltiple ... (3 por ej.) VI curso de

VI curso de Análisis de Datos (30 Marzo de 2009) Análisis multivariante

Etapas de un análisis jerárquico de clusters

1) Estandarizar las variables si fuera necesario.

(variables cuantitativas)

3) Elegir un algoritmo para unir (fusionar) grupos.

2) Elegir una medida de distancia entre objetos.

4) Decidir el número final de clusters e interpreta rlos.

Page 11: Introducción a las técnicas de “Análisis Multivariante”simfit.usal.es/casos/curso2009/multivariante_Simfit.pdf · •Regresión lineal múltiple ... (3 por ej.) VI curso de

VI curso de Análisis de Datos (30 Marzo de 2009) Análisis multivariante

1) Transformación de variables para uniformar sus escalas

1) No transformar si las variables están medidas en las mismas unidades.

2) Normalizar variables a media = 0 y desviación estándar = 1:

1) Aplicar raíz cuadrada a las variables.

2) Hacer el logaritmo de las variables.

(sólo variables cuantitativas)

s

xxx

−=

Page 12: Introducción a las técnicas de “Análisis Multivariante”simfit.usal.es/casos/curso2009/multivariante_Simfit.pdf · •Regresión lineal múltiple ... (3 por ej.) VI curso de

VI curso de Análisis de Datos (30 Marzo de 2009) Análisis multivariante

2a) Elegir una medida de distancia entre objetos

• Distancia Euclidia :

( )( )21

1

2

/m

k

jkikij xxD ∑=

−=

2 variables (plano)

• Distancia Euclidia al cuadrado.

• Disimilaridad de Bray-Curtis (en %).

• Distancia ciudad (city block):

∑=

−=m

k

jkikij xxD1

2 variables (plano)

1jx1ix

2ix

2jx

Page 13: Introducción a las técnicas de “Análisis Multivariante”simfit.usal.es/casos/curso2009/multivariante_Simfit.pdf · •Regresión lineal múltiple ... (3 por ej.) VI curso de

VI curso de Análisis de Datos (30 Marzo de 2009) Análisis multivariante

2b) Calcular la matriz de distancias

35895

49104

563

22

1

54321Objeto

Matriz de distancias

......................

0.2...2405100Objeto 3

...

...

...

X4

54

32

126

X3

0.8

0.3

0.7

X5

7727Objeto 5

3624Objeto 2

3412Objeto 1

X2X1

0

0

0

0

0

54535251

45434241

35343231

25242321

15141312

dddd

dddd

dddd

dddd

dddd

Matriz de distancias

Page 14: Introducción a las técnicas de “Análisis Multivariante”simfit.usal.es/casos/curso2009/multivariante_Simfit.pdf · •Regresión lineal múltiple ... (3 por ej.) VI curso de

VI curso de Análisis de Datos (30 Marzo de 2009) Análisis multivariante

3) Algoritmos de unión (fusión) de clusters

Cluster 1

Cluster 2Cluster 3

Vecino más próximo(single link)

Por centroides

Vecino más lejano(complete link)

El primer cluster consiste en “n” clusters de 1 objeto cada uno, el algoritmo los va fusionando por pasos hasta llegar a un último cluster que contiene los “n” objetos.

¿Qué criterio se sigue para ir fusionando los clusters?

Page 15: Introducción a las técnicas de “Análisis Multivariante”simfit.usal.es/casos/curso2009/multivariante_Simfit.pdf · •Regresión lineal múltiple ... (3 por ej.) VI curso de

VI curso de Análisis de Datos (30 Marzo de 2009) Análisis multivariante

Ejemplo del algoritmo “vecino más próximo”

35895

49104

563

22

1

54321Objeto

Mat

rizdi

stan

cias

(1, 2, 3, 4, 5)5

(1, 2), (3, 4, 5)4

(1, 2), 3, (4, 5)3

(1, 2), 3, 4, 52

1,2,3,4,50

ClusterDistancia

Dendrograma (árbol)

Distancia entre 4 y 5

(rama)

Page 16: Introducción a las técnicas de “Análisis Multivariante”simfit.usal.es/casos/curso2009/multivariante_Simfit.pdf · •Regresión lineal múltiple ... (3 por ej.) VI curso de

VI curso de Análisis de Datos (30 Marzo de 2009) Análisis multivariante

Algoritmos de unión (fusión) de clusters (cont.)

Método del promedio del grupo

Cluster A Cluster B

1

2

3

4

5

6252423151413 DDDDDD

DAB+++++=

Cluster C6

282726181716 DDDDDDDAC

+++++=67

8

Y análogamente:

…etc

Page 17: Introducción a las técnicas de “Análisis Multivariante”simfit.usal.es/casos/curso2009/multivariante_Simfit.pdf · •Regresión lineal múltiple ... (3 por ej.) VI curso de

VI curso de Análisis de Datos (30 Marzo de 2009) Análisis multivariante

Ejemplo del algoritmo “promedio de grupo”

35895

49104

563

22

1

54321Objeto

Distance matrix

(1, 2, 3, 4, 5)7.8

(1, 2), (3, 4, 5)4.5

(1, 2), 3, (4, 5)3

(1, 2), 3, 4, 52

1,2,3,4,50

ClusterDistancia

Dendrograma (árbol)

Page 18: Introducción a las técnicas de “Análisis Multivariante”simfit.usal.es/casos/curso2009/multivariante_Simfit.pdf · •Regresión lineal múltiple ... (3 por ej.) VI curso de

VI curso de Análisis de Datos (30 Marzo de 2009) Análisis multivariante

Análisis de 20 pacientes

¿¿Por donde Por donde ““ cortarcortar ”” el el dendrogramadendrograma ? ? o el o el ““ problema del nproblema del n úúmero de gruposmero de grupos ””

¿Transformar variables?Sin transformar

Métrica distancia entre objetos

ciudadciatandis

Algoritmo de unión de clusters

próximomásvecino

0.2240510Paciente 3

...

32

126

X3

...

0.3

0.7

….

.............

3624Paciente 2

3412Paciente 1

X2X1

Los 20 pacientes se agrupan (dendrograma)

2 grupos

CML ALL AML RCML

4 grupos

3 grupos

Page 19: Introducción a las técnicas de “Análisis Multivariante”simfit.usal.es/casos/curso2009/multivariante_Simfit.pdf · •Regresión lineal múltiple ... (3 por ej.) VI curso de

VI curso de Análisis de Datos (30 Marzo de 2009) Análisis multivariante

Ojo: el Ojo: el dendrogramadendrograma depende de la transformacidepende de la transformaci óón n de los datos, tipo de distancia y algoritmo elegido sde los datos, tipo de distancia y algoritmo elegido s

Estandarizados, distancia euclidia, vecino más próximo

Sin transformar, distancia euclidia, vecino más próximo

Estandarizados, distancia ciudad, promedio de grupo

Page 20: Introducción a las técnicas de “Análisis Multivariante”simfit.usal.es/casos/curso2009/multivariante_Simfit.pdf · •Regresión lineal múltiple ... (3 por ej.) VI curso de

VI curso de Análisis de Datos (30 Marzo de 2009) Análisis multivariante

0.20.424051003

...

0.5

0.1

X4

...

32

126

X3

...

0.3

0.7

X5

.............

36242

34121

X2X1Caso

Análisis de 20 pacientes

0.20.424051003

0.5

0.1

X4

32

126

X3

0.3

0.7

X5

36242

34121

X2X1centroide

CML

ALL

AML

Análisis con 3 clusters

Análisis de clusters por K medias (ejemplo )• Es un análisis de clusters de tipo supervisado (no jerárquico) . • El número de clusters que se desea tiene que decidi rse a priori.

Se deciden k centroides (3 por ej.)

Page 21: Introducción a las técnicas de “Análisis Multivariante”simfit.usal.es/casos/curso2009/multivariante_Simfit.pdf · •Regresión lineal múltiple ... (3 por ej.) VI curso de

VI curso de Análisis de Datos (30 Marzo de 2009) Análisis multivariante

3) Elegir un algoritmo para reasignar los objetos a los clusters hasta alcanzar un criterio de convergencia.

Fundamento de Clusters por K-medias

1) Imaginemos “n” objetos a clasificar en base a “m” variables

2) Elegimos un procedimiento para decidir las estimas iniciales de los k centroides (semillas):

• El investigador elige los k centroides.

• Seleccionar k objetos al azar

• k primeros objetos

Semilla 2

Semilla 1

Semilla 3

Page 22: Introducción a las técnicas de “Análisis Multivariante”simfit.usal.es/casos/curso2009/multivariante_Simfit.pdf · •Regresión lineal múltiple ... (3 por ej.) VI curso de

VI curso de Análisis de Datos (30 Marzo de 2009) Análisis multivariante

..36

34

X5

..36

34

X4

..36

34

X2

..36

34

X3

2

3

.............. 162

32 ...36244

126 ...34121

X3 .... X15X5X1Caso

AnAn áálisis por lisis por ““ Componentes PrincipalesComponentes Principales ””(Ejemplo)(Ejemplo)

15 variables autoperimetría laser (campo visual)

162

paci

ente

s

..36

34

CP2

..36

34

CP3

2

3

....... 162

244

121

CP1Caso

3-4 componentes principales

mmmmm

mm

mm

XaXaXaCP

XaXaXaCP

XaXaXaCP

m +++=

+++=+++=

...

...

...

2211

...........................................................................................................................

2222121

1212111

2

1

- Estas CP i explicarán la mayor variabilidad de las variables o riginales - Las CP i presentan incorrelación entre ellas

Reducir las 15 variables

Page 23: Introducción a las técnicas de “Análisis Multivariante”simfit.usal.es/casos/curso2009/multivariante_Simfit.pdf · •Regresión lineal múltiple ... (3 por ej.) VI curso de

VI curso de Análisis de Datos (30 Marzo de 2009) Análisis multivariante

ExtracciExtracci óón de las componentes n de las componentes principalesprincipales

CP1

CP2

CP3CP4

Transformación = UntransformedTipo de matriz = Correlation matrixTipo de puntuación = Standardised scores

Eigenvalores Proporción AcumulativaCP1 6.833E+00 0.4555 0.4555 CP2 3.724E+00 0.2483 0.7038 CP3 2.321E+00 0.1548 0.8586 CP4 1.055E+00 0.0703 0.9289 CP5 5.849E-01 0.0390 0.9679 CP6 2.691E-01 0.0179 0.9858 CP7 1.968E-01 0.0131 0.9989 CP8 7.668E-03 0.0005 0.9995 CP9 4.829E-03 0.0003 0.9998 CP10 3.070E-03 0.0002 1.0000 CP11 2.153E-04 0.0000 1.0000 CP12 6.593E-05 0.0000 1.0000 CP13 3.677E-06 0.0000 1.0000 CP14 1.308E-06 0.0000 1.0000 CP15 2.115E-07 0.0000 1.0000

Se extraen 4 componentes: CP1, CP2, CP3 y CP4

Page 24: Introducción a las técnicas de “Análisis Multivariante”simfit.usal.es/casos/curso2009/multivariante_Simfit.pdf · •Regresión lineal múltiple ... (3 por ej.) VI curso de

VI curso de Análisis de Datos (30 Marzo de 2009) Análisis multivariante

ContribuciContribuci óón de las variables n de las variables originales a CP1 y CP2originales a CP1 y CP2

Las 15 variables originales

Page 25: Introducción a las técnicas de “Análisis Multivariante”simfit.usal.es/casos/curso2009/multivariante_Simfit.pdf · •Regresión lineal múltiple ... (3 por ej.) VI curso de

VI curso de Análisis de Datos (30 Marzo de 2009) Análisis multivariante

RepresentaciRepresentaci óón de los casos bajo CP1 y CP2 n de los casos bajo CP1 y CP2 (puntuaciones o (puntuaciones o scoresscores en CP1 y CP2)en CP1 y CP2)

Los 162 pacientes

Page 26: Introducción a las técnicas de “Análisis Multivariante”simfit.usal.es/casos/curso2009/multivariante_Simfit.pdf · •Regresión lineal múltiple ... (3 por ej.) VI curso de

VI curso de Análisis de Datos (30 Marzo de 2009) Análisis multivariante

Representación Biplot: ¿Cómo surge?

Imaginemos “2” variables medidas sobre “n” sujetos, ¿se pueden representar a la vez variables y sujetos ? :

510Sujeto 3

.............

3624Sujeto 2

3412Sujeto 1

X2X1

X1 (Talla)

X2 (Peso)

Si

27

29

3316

12

3821

22

25

2

45

9

7

5

Page 27: Introducción a las técnicas de “Análisis Multivariante”simfit.usal.es/casos/curso2009/multivariante_Simfit.pdf · •Regresión lineal múltiple ... (3 por ej.) VI curso de

VI curso de Análisis de Datos (30 Marzo de 2009) Análisis multivariante

¿Cómo generalizarlo? : La representación Biplot

...…................

0.2240510Sujeto 3

...

32

126

X3

...

0.3

0.7

Xm

.......Sujeto n

3624Sujeto 2

3412Sujeto 1

X2X1

¿Cómo representar simultáneamente “m” variables y “n” sujetos?

1) No es posible representar, tal cual están, más de 3 variables (3D).

2) Se recurre a extraer la información mediante 2 o 3 componentes o ejes ficticios (Biplot 2D o 3D), obtenidos por descomposición de la matriz original en valores singulares (SVD).

Var 1 Var 5

Var 4

Var 2

Var 3

Sujeto 2

Sujeto 5

Sujeto 6Sujeto 3

Sujeto 1

Sujeto 4

Page 28: Introducción a las técnicas de “Análisis Multivariante”simfit.usal.es/casos/curso2009/multivariante_Simfit.pdf · •Regresión lineal múltiple ... (3 por ej.) VI curso de

VI curso de Análisis de Datos (30 Marzo de 2009) Análisis multivariante

Representación Biplot (Interpretación)

A partir del gráfico Biplot se puede reconocer:

• La variabilidad en las variables (desviación estándar), ya que a mayor longitud del vector mayor error en la variable.

• La correlación entre variables , ya que 2 vectores formando ángulo pequeño se interpretan como variables bien correlacionadas . Vectores perpendiculares se refieren a variables con correlación nulay vectores contrarios a variables correlacionadas negativamente .

Var 1Var 5

Var 4

Var 2

Var 3

Sujeto 2

Sujeto 5

Sujeto 6

Sujeto 3

Sujeto 1

Sujeto 4

• Agrupaciones de casos : casos próximos tiene valores parecidos de las variables.

Page 29: Introducción a las técnicas de “Análisis Multivariante”simfit.usal.es/casos/curso2009/multivariante_Simfit.pdf · •Regresión lineal múltiple ... (3 por ej.) VI curso de

VI curso de Análisis de Datos (30 Marzo de 2009) Análisis multivariante

Ejemplo: Biplot para variedades de lirios

Fisher estudió 150 muestras de lirios del campo y a to dos les medió la longitud y la anchura del sépalo y la longitud y anchur a del pétalo.

Page 30: Introducción a las técnicas de “Análisis Multivariante”simfit.usal.es/casos/curso2009/multivariante_Simfit.pdf · •Regresión lineal múltiple ... (3 por ej.) VI curso de

VI curso de Análisis de Datos (30 Marzo de 2009) Análisis multivariante

Biplot para los datos de lirios de Fisher

Page 31: Introducción a las técnicas de “Análisis Multivariante”simfit.usal.es/casos/curso2009/multivariante_Simfit.pdf · •Regresión lineal múltiple ... (3 por ej.) VI curso de

VI curso de Análisis de Datos (30 Marzo de 2009) Análisis multivariante

Biplot (fundamento matemático)1) Se tiene una matriz X de n filas por m columnas:

TVUX Σ=2) Se hace una descomposición en valores singulares (SVD):

=............

............

............

X

3) Nos quedamos con la aproximación dada por los 2 primeros valores singulares:

4) Esta aproximación se puede escribir de 3 formas:Biplot simétrico

Biplot con énfasis en filas Biplot con énfasis en columnas

Page 32: Introducción a las técnicas de “Análisis Multivariante”simfit.usal.es/casos/curso2009/multivariante_Simfit.pdf · •Regresión lineal múltiple ... (3 por ej.) VI curso de

VI curso de Análisis de Datos (30 Marzo de 2009) Análisis multivariante

Métodos con sólo variables independientes( b. Cuando se conocen los grupos de los objetos)

0.20.424052Objeto 3

37

0.5

0.1

X4

45

32

126

X3

0.3

0.3

0.7

X5

232Objeto 4

361Objeto 2

341Objeto 1

X2Grupo MANOVA

Análisis en variables canónicas

Análisis discriminante

Objetivo: Estudiar las diferencias entre grupos y predeci r el grupo de nuevas muestras.

Page 33: Introducción a las técnicas de “Análisis Multivariante”simfit.usal.es/casos/curso2009/multivariante_Simfit.pdf · •Regresión lineal múltiple ... (3 por ej.) VI curso de

VI curso de Análisis de Datos (30 Marzo de 2009) Análisis multivariante

MANOVA (ANOVA de varias variables)

39342521Grupo 2Objeto 4

18151216Grupo 2Objeto 5

33292515Grupo 2Objeto 6

13292523Grupo 3Objeto 7

26252123Grupo 3Objeto 8

32246722Grupo 3Objeto 9

0.20.42452Grupo 1Objeto 3

0.5

0.1

X3

32

126

X2

0.3

0.7

X4

36Grupo 1 Objeto 2

34Grupo 1Objeto 1

X1Grupo

Imaginemos que se miden 4 variables en 3 grupos:

H1 : al menos hay 2 vectores de medias que difieren significativamente de un grupo a otro.

34333231

24232221

14131211

xxxx

xxxx

xxxx

H0 : No hay diferencia entre los vectores de medias de las 4 variables en los 3 grupos:

Page 34: Introducción a las técnicas de “Análisis Multivariante”simfit.usal.es/casos/curso2009/multivariante_Simfit.pdf · •Regresión lineal múltiple ... (3 por ej.) VI curso de

VI curso de Análisis de Datos (30 Marzo de 2009) Análisis multivariante

MANOVA (Ejemplo: datos de lirios de Fisher )

VARIABLE 1 VARIABLE 2 VARIABLE 3 VARIABLE 4GROUP 1 5.00600E+00 3.42800E+00 1.46200E+00 2.46000E-01GROUP 2 5.93600E+00 2.77000E+00 4.26000E+00 1.32600E+00GROUP 3 6.58800E+00 2.97400E+00 5.55200E+00 2.02600E+00POOLED MEAN 5.84333E+00 3.05733E+00 3.75800E+00 1.19933E+00

¿Hay diferencias entre estos vectores de medias?

Page 35: Introducción a las técnicas de “Análisis Multivariante”simfit.usal.es/casos/curso2009/multivariante_Simfit.pdf · •Regresión lineal múltiple ... (3 por ej.) VI curso de

VI curso de Análisis de Datos (30 Marzo de 2009) Análisis multivariante

MANOVA (datos de lirios de Fisher (cont.) )

VARIABLE 1 VARIABLE 2 VARIABLE 3 VARIABLE 4GROUP 1 5.00600E+00 3.42800E+00 1.46200E+00 2.46000E-01GROUP 2 5.93600E+00 2.77000E+00 4.26000E+00 1.32600E+00GROUP 3 6.58800E+00 2.97400E+00 5.55200E+00 2.02600E+00POOLED MEAN 5.84333E+00 3.05733E+00 3.75800E+00 1.19933E+00

¿Hay diferencias entre estos vectores de medias?

Como p < 0.01 se concluye que al menos 2 vectores de medias si difieren

Para decidirlo se hacen diferentes tests estadísticos:

Statistic Value Transform deg.free. pWilks lambda 2.344E-02 4.149E+00 8 288 0.0001 Reject H0 Roys largest root 3.219E+01Lawley-Hotelling T 3.248E+01 5.846E+02 8 144 0.0000 Reject H0 Pillais trace 1.192E+00

Page 36: Introducción a las técnicas de “Análisis Multivariante”simfit.usal.es/casos/curso2009/multivariante_Simfit.pdf · •Regresión lineal múltiple ... (3 por ej.) VI curso de

VI curso de Análisis de Datos (30 Marzo de 2009) Análisis multivariante

MANOVA: ¿Hay igualdad de perfiles?

MANOVA H0: selected group profiles are equal Hotelling T^2 = 2.031E+03Test statistic S = 6.632E+02Numerator DOF = 3Denominator DOF = 96P(F >= S) = 0.0000 Reject H0 at 1% sig.level

Page 37: Introducción a las técnicas de “Análisis Multivariante”simfit.usal.es/casos/curso2009/multivariante_Simfit.pdf · •Regresión lineal múltiple ... (3 por ej.) VI curso de

VI curso de Análisis de Datos (30 Marzo de 2009) Análisis multivariante

Análisis por variables canónicas

0.33745232Objeto 4

….….….….….….

0.20.424052Objeto 3

….

0.5

0.1

X3

….

32

126

X2

….

0.3

0.7

X4

….….….

361Objeto 2

341Objeto 1

X1Grupo

Objetivos:

• Para discriminar entre los grupos todo lo posible se busca una combinación lineal de las variables que maximice la la relación de la variabilidad “entre”grupos respecto a la variabilidad “intra”grupos.

Imaginemos:

Se han medido varias variables en diferentes objetos de 2 grupos.

Esquema para 2 variables:

2121111 XaXaY +=

11x 21x

12x

22xDirección de máxima separación

x1

x2

Page 38: Introducción a las técnicas de “Análisis Multivariante”simfit.usal.es/casos/curso2009/multivariante_Simfit.pdf · •Regresión lineal múltiple ... (3 por ej.) VI curso de

VI curso de Análisis de Datos (30 Marzo de 2009) Análisis multivariante

Análisis por variables canónicas (Ejemplo: Lirios de Fisher)

Grupo variables1 5.1 3.5 1.4 0.21 4.9 3.0 1.4 0.21 4.7 3.2 1.3 0.2.....................2 7.0 3.2 4.7 1.42 6.4 3.2 4.5 1.52 6.9 3.1 4.9 1.5.....................3 6.3 3.3 6.0 2.53 5.8 2.7 5.1 1.93 7.1 3.0 5.9 2.1

Muestras a asignar? 4.6 3.6 1.0 0.2? 5.9 3.2 4.8 1.8? 6.2 3.4 5.4 2.3

Page 39: Introducción a las técnicas de “Análisis Multivariante”simfit.usal.es/casos/curso2009/multivariante_Simfit.pdf · •Regresión lineal múltiple ... (3 por ej.) VI curso de

VI curso de Análisis de Datos (30 Marzo de 2009) Análisis multivariante

Análisis por variables canónicas (Fundamento matemático)

4243232221212

4143132121111

XaXaXaXaCV

XaXaXaXaCV

+++=+++=

Correlations Eigenvalues Proportions Chi-sq. NDOF p0.9848 32.1919 0.9912 546.1153 8 0.00000.4712 0.2854 0.0088 36.5297 3 0.0000

Canonical variate means-7.608E+00 2.151E-011.825E+00 -7.279E-015.783E+00 5.128E-01

Canonical coefficients-8.294E-01 2.410E-02-1.534E+00 2.165E+002.201E+00 -9.319E-012.810E+00 2.839E+00

CV1 CV2

Page 40: Introducción a las técnicas de “Análisis Multivariante”simfit.usal.es/casos/curso2009/multivariante_Simfit.pdf · •Regresión lineal múltiple ... (3 por ej.) VI curso de

VI curso de Análisis de Datos (30 Marzo de 2009) Análisis multivariante

m0pmp1m1m

10pp11111

a xa · · · xa y

· · · · · · · · ·

a xa · · · xa y

+++=

+++=

Asignación de objetos a grupos por Análisis Discriminante

Grupo variables1 5.1 3.5 1.4 0.21 4.9 3.0 1.4 0.21 4.7 3.2 1.3 0.2.....................2 7.0 3.2 4.7 1.42 6.4 3.2 4.5 1.52 6.9 3.1 4.9 1.5.....................3 6.3 3.3 6.0 2.53 5.8 2.7 5.1 1.93 7.1 3.0 5.9 2.1

Muestras a asignar? 4.6 3.6 1.0 0.2? 5.9 3.2 4.8 1.8? 6.2 3.4 5.4 2.3

Page 41: Introducción a las técnicas de “Análisis Multivariante”simfit.usal.es/casos/curso2009/multivariante_Simfit.pdf · •Regresión lineal múltiple ... (3 por ej.) VI curso de

VI curso de Análisis de Datos (30 Marzo de 2009) Análisis multivariante

Grupo LongSep AnchSep LongPet AnchPet1 5.1 3.5 1.4 0.21 4.9 3.0 1.4 0.21 4.7 3.2 1.3 0.2---------------------------------------------------------------2 7.0 3.2 4.7 1.42 6.4 3.2 4.5 1.52 6.9 3.1 4.9 1.5--------------------------------------------------------------3 6.3 3.3 6.0 2.53 5.8 2.7 5.1 1.93 7.1 3.0 5.9 2.1

Serie de entrenamiento

4.6 3.6 1.0 0.25.9 3.2 4.8 1.86.2 3.4 5.4 2.3

Muestras a asignar a grupos

Muestra 1 Muestra 2 Muestra 3

Distancias de Mahalanobis entre grupos

Asignación de objetos a grupos por Análisis Discriminante (ej: Lirios de Fisher)

Distancias de Mahalanobis muestras- grupos

Page 42: Introducción a las técnicas de “Análisis Multivariante”simfit.usal.es/casos/curso2009/multivariante_Simfit.pdf · •Regresión lineal múltiple ... (3 por ej.) VI curso de

VI curso de Análisis de Datos (30 Marzo de 2009) Análisis multivariante

Aplicación del Análisis multivariante en las investigaciones con Chips de ADN

Page 43: Introducción a las técnicas de “Análisis Multivariante”simfit.usal.es/casos/curso2009/multivariante_Simfit.pdf · •Regresión lineal múltiple ... (3 por ej.) VI curso de

VI curso de Análisis de Datos (30 Marzo de 2009) Análisis multivariante

Page 44: Introducción a las técnicas de “Análisis Multivariante”simfit.usal.es/casos/curso2009/multivariante_Simfit.pdf · •Regresión lineal múltiple ... (3 por ej.) VI curso de

VI curso de Análisis de Datos (30 Marzo de 2009) Análisis multivariante

Los 10 Genes principales asociados a la respuesta a Imatinib

Usando la prueba t de student

#genename t-statistic pvalueR06581 -3.789523125 0.00067859H13205 -3.342012644 0.002239682AA088678 -3.105088949 0.004130574AA126760 2.934455395 0.006351529R08434 -2.872010231 0.007416606A101777 -2.790141583 0.009068974AI023731 -2.698203802 0.011333359AA456314 2.660455942 0.012407669T95268 -2.629109144 0.013371006AA775957 2.592031002 0.014599937

Page 45: Introducción a las técnicas de “Análisis Multivariante”simfit.usal.es/casos/curso2009/multivariante_Simfit.pdf · •Regresión lineal múltiple ... (3 por ej.) VI curso de

VI curso de Análisis de Datos (30 Marzo de 2009) Análisis multivariante

Exploración de datos en la serie de entrenamiento (32 pacientes y 10 genes

predictores)

Page 46: Introducción a las técnicas de “Análisis Multivariante”simfit.usal.es/casos/curso2009/multivariante_Simfit.pdf · •Regresión lineal múltiple ... (3 por ej.) VI curso de

VI curso de Análisis de Datos (30 Marzo de 2009) Análisis multivariante

Cluster jerárquico de los 32 pacientes

Page 47: Introducción a las técnicas de “Análisis Multivariante”simfit.usal.es/casos/curso2009/multivariante_Simfit.pdf · •Regresión lineal múltiple ... (3 por ej.) VI curso de

VI curso de Análisis de Datos (30 Marzo de 2009) Análisis multivariante

Componentes principales

Page 48: Introducción a las técnicas de “Análisis Multivariante”simfit.usal.es/casos/curso2009/multivariante_Simfit.pdf · •Regresión lineal múltiple ... (3 por ej.) VI curso de

VI curso de Análisis de Datos (30 Marzo de 2009) Análisis multivariante

ANALISIS DISCRIMINANTE

Distancia de Mahalanobis al cuadrado