66
Análisis Multivariante

A. Discriminante

Embed Size (px)

Citation preview

Page 1: A. Discriminante

Análisis Multivariante

Page 2: A. Discriminante

“El Análisis Multivariante (Cuadras, 1981) es la rama de

la Estadística y del análisis de datos, que estudia,

interpreta y elabora el material estadístico sobre un

conjunto de n>1 de variables, que pueden ser

cuantitativas, cualitativas o una mezcla.”

DEFINICIÓN:

OBJETIVOS:

1. Resumir los datos mediante un pequeño conjunto de

nuevas variables con la mínima pérdida de información.

2. Encontrar grupos en los datos, si existen.

3. Clasificar nuevas observaciones en grupos definidos.

4. Relacionar dos conjuntos de variables

Page 3: A. Discriminante

Análisis de dependencia» tratan de explicar la variable

considerada independiente a través de otras

consideradas independientes o explicativas Análisis de interdependencia» otorgan la misma

consideración a todas las variables, tienden a descubrir

las interrelaciones y estructura subyacente entre ellas.

Son técnicas de clasificación Otras técnicas» Intentan superar el enfoque monocriterio

de las anteriores intentando explicar procesos complejos

Análisis multivariante

Las diferentes técnicas de análisis multivariante cabe agruparlas en tres categorías:

Page 4: A. Discriminante
Page 5: A. Discriminante

Escalas de medición

No métricas nominal y ordinalDiferencias en tipo de clase.- Indican presencia o ausencia de una característica o propiedad

Atributos.- características o propiedades que identifican o describen un objeto

Métricas intervalo y razónDiferencian en grado o cantidadReflejan cantidades relativas o grado

Page 6: A. Discriminante

Escalas de medición

Page 7: A. Discriminante

Escala de Guttman

Se basa en la posibilidad de ordenar un conjunto de items u objetos, en base a una sola característica, de forma que se presentan los estímulos desde lo mas sencillo a lo mas complejo. EjemploSeñale los estudios que ha cursado o la titulación máxima a alcanzada.NingunoNinguno, sabe leerNinguno, sabe leer y escribirPrimariaSecundariaSuperiorPost-grado

La respuesta implica que el encuestado a alcanzado todos los valores anteriores

Page 8: A. Discriminante

Escala de Lickert

Se usa para medir actitudes hacia objetos, hechos o ideas. Se le

presenta al individuo una serie de opciones tanto positivas

como negativas y se le pide que muestre su grado de acuerdo o

desacuerdo de una de ellas. Una vez asignado los valores a las

distintas declaraciones habrá que sumar las puntuaciones que

se han dado en total de todas las declaraciones.

Ejemplo

Indique su grado de acuerdo o desacuerdo respecto a las

siguiente información.

Totalmente de acuerdo 5

De acuerdo 4

Indiferente 3

En descuerdo 2

Totalmente en desacuerdo 1

Page 9: A. Discriminante
Page 10: A. Discriminante

Matriz de datos y vector de medias

Page 11: A. Discriminante

Matriz de covarianzas

Page 12: A. Discriminante

Matriz de correlaciones

Page 13: A. Discriminante

CONCEPTO DE PROXIMIDAD

La proximidad expresa la mayor o menor semejanza, que

existe entre dos individuos o variables o entre grupos de

variables o grupos de individuos. Para medir la proximidad se

tiene dos medidas: distancias y similitudes.

Page 14: A. Discriminante

La distancia dAB entre los puntos A y B, que pertenecen a

un mismo conjunto E, es toda medida que verifique los

siguientes axiomas:

Axioma del Signo:

Axioma de Simetría:

Axioma de Desigualdad Triangular:

DISTANCIAS

AB AAd 0; d 0 A B E

AB BAd d A B E

AB AC CBd d d A B C E

Page 15: A. Discriminante

TIPOS DE DISTANCIA

Distancia euclidiana

1p 22

AB Aj Bjj 1d (X X )

donde XAj y XBj son las coordenadas respectivas de los puntos A y B en la dimensión j.

Distancia de Minkowski

Es una distancia de orden n, es decir cuando la distancia entre los puntos A y B se mide sobre sus coordenadas en n ejes ortogonales.

1p nn

AB Aj Bjj 1d (X X ) n 1

Page 16: A. Discriminante

DISTANCIA DE LA 2

2p Aj Bj2

AB j 1*j A* B*

n n1d

P n n

Es una distancia que se calcula sobre la matriz de frecuencias absolutas.

donde:

nAj : Número de asociaciones de la variable j a A

nBj : Número de asociaciones de la variable j a B

P*j : Porcentaje total de asociaciones a la variable j

Page 17: A. Discriminante

DISTANCIA DE MAHALANOBIS

2 1AB A B A Bd (X X )' W (X X )

Esta distancia permite situar varias poblaciones en un

espacio de p dimensiones y determinar en que medida estas

poblaciones pueden ser diferenciadas unas de otras.

donde W es la Matriz de Covarianzas

Page 18: A. Discriminante

SIMILITUDES

Los índices de similitud se utilizan para comparar los

elementos de un conjunto estudiados, los cuales a la inversa

que las distancias se consideran con mayor similitud cuanto

mas pequeña sea su distancia.

Los índices de similitud se utilizan para comparar los

elementos de un conjunto estudiados, los cuales a la inversa

que las distancias se consideran con mayor similitud cuanto

mas pequeña sea su distancia.

Page 19: A. Discriminante

Axiomas que poseen los índices de similitud:

Axioma del Signo:

AB BAS S A B E

Axioma de Simetría:

AA BB ABS S S A B E

Page 20: A. Discriminante

ANÁLISIS DE CONGLOMERADOS

El análisis de conglomerados (en inglés, cluster analysis) es una técnica

multivariante que permite agrupar los casos o variables de un archivo de datos en

función de la proximidad o similitud existente entre ellos.

Existen de dos tipos:

- Métodos Jerárquicos.

- Métodos no Jerárquicos.

Page 21: A. Discriminante

Métodos Jerárquicos

Los métodos jerárquicos forman grupos de casos o variables en pasos sucesivos

y pueden analizar en cada paso las distancias entre los grupos formados.

Se pueden distinguir dos clases:

1. Los métodos Aglomerativos.- Estos métodos comienzan el análisis con

tantos grupos como casos y van formando grupos en pasos sucesivos.

En el primer paso, se agrupan los dos casos más cercanos, los que tienen menor

distancia, o las variables más próximas, las que tiene mayor similitud

(coeficiente de correlación de Pearson), en el paso siguiente, los casos

agrupados en el primer paso se consideran como un grupo más, se vuelven a

calcular las distancias o similaridades entre los grupos, agrupando los dos más

próximos, y así sucesivamente, hasta formar un solo grupo.

2. Los métodos Disociativos.- Estos métodos comienzan el análisis con un solo

grupo, formado por todos los casos. En pasos sucesivos, se van formando grupos

hasta terminar en tantos grupos como casos.

Page 22: A. Discriminante

Métodos Aglomerativos

Primeramente se escoge un enlace, una distancia entre las diferentes que

existen entre los cluster:

-La del vecino más cercano.

-La del vecino más lejano.

-La de la distancia promedio.

Page 23: A. Discriminante

Diferentes tipos de enlaces:

°°

°° °

°

°

°

°°

° °

°

°°

°°

°

Vecino más cercano

Vecino más lejano

Distancia promedio

Page 24: A. Discriminante

Se puede considerar el siguiente algoritmo básico. Dados N objetos o

individuos:

1. Empezar con N clusters y una matriz N x N de distancias o similitudes.

D=[dij]

2. Dentro de la matriz de distancias, buscar aquella entre los clusters U y V

(más próximos, más distantes o en media más próximos)que sea la menor

entre todas, duv.

3. Juntar los clusters U y V en uno solo. Actualizar la matriz de distancias:

i) Borrando las filas y columnas de los clusters U y V.

ii) Formando la fila y columna de las distancias del nuevo cluster (UV) al

resto de cluster.

4. Repetir los pasos 2 y 3 (N-1) veces.

Algoritmo Básico

Page 25: A. Discriminante

Al final, todos los objetos están en un solo cluster cuando termina el algoritmo.

Además, se guarda la identificación de los clusters que se van uniendo en cada

etapa, así como las distancias a las que se unen. Finalmente se construye un

dendograma.

Algoritmo Básico

Page 26: A. Discriminante

NÚMERO ÓPTIMO DE GRUPOS:

Para determinar el número apropiado de conglomerados se puede

utilizar los coeficientes de conglomeración (que se presentan el la

tabla del historial de conglomeración). Con estos valores se calculan

los cambios porcentuales, si la mayor variación porcentual, por

ejemplo, se produce en la etapa q y se tienen n casos, entonces el

número óptimo de grupos será: n – q.

También se puede usar el dendograma, observando como es la

formación natural de los grupos.

Page 27: A. Discriminante

Caso: Actitud hacia las compras

Se realizó un estudio de mercado en una muestra de consumidores para medir la

actitud que tienen cuando salen de compras. De acuerdo con la investigación, se

identificaron seis variables de actitud y se pidió a los entrevistados que expresaran

su grado de acuerdo con las afirmaciones siguientes, con base en una escala de siete

puntos (1= en desacuerdo, 7= de acuerdo). Las variables son las siguientes:

 

X1 = "Salir de compras es divertido".

X2 = "Salir de compras afecta el presupuesto".

X3 = "Combino la salida de compras con la comida fuera de casa".

X4 = "Cuando salgo de compras, trato de hacer las mejores".

X5 = "No me importa salir de compras".

X6 = "Puede ahora ahorrar mucho dinero si comparo los precios".

Page 28: A. Discriminante

Los datos obtenidos de una muestra de prueba a 20 consumidores se encuentra en

el archivo actitud.sav.

Se desea clasificar a los consumidores de acuerdo a su actitud hacia las compras.

Responda lo siguiente:

Obtenga la tabla que refleja el historial de aglomeración y responda:

¿Qué ocurre en la etapa o paso 3?

¿En el paso 15, cuántos clusters se han formado y qué consumidores pertenecen a

cada uno de ellos?

Obtenga el diagrama de témpanos y determine ¿cuántos consumidores forman el

grupo más grande, si se desea formar 4 grupos?

Utilizando el método de variación del coeficiente de conglomeración, determine

¿cuántos conglomerados son adecuados?

En base al número adecuado de conglomerados, obtener e interpretar el perfil de

medias (tabla y gráfico de líneas) para los grupos formados y asigne un nombre

adecuado a cada grupo formado.

Page 29: A. Discriminante

Métodos no Jerárquicos

Se usan para agrupar objetos, pero no variables, en un conjunto de k

clusters ya predeterminado. No se tiene que especificar una matriz de

distancias ni se tienen que almacenar las iteraciones. Todo esto permite

trabajar con un número de datos mayor que en el caso de los métodos

jerárquicos.

Se parte de un conjunto inicial de cluster elegidos al azar, luego los

objetos se van reasignando a cada cluster en forma iterativa. Se usa

habitualmente el método de las k-medias.

Método de las k-medias:

Es un método que permite asignar a cada observación al cluster que se

encuentra más próximo en términos del centroide (media), En general

la distancia empleada es la euclideana.

Page 30: A. Discriminante

Pasos:

1. Se toman al azar k cluster iniciales.

2. Para el conjunto de observaciones, se vuelve a calcular las

distancias a los centroides de los clusters y se reasignan a los

que estén más próximos. Se vuelven a recalcular los centroides

de los k clusters después de las reasignaciones de los elementos.

3. Se repite el paso anterior hasta que no se produzca ninguna

reasignación.

Page 31: A. Discriminante

Se desea conocer la “Percepción de la calidad de los servicios de transporte urbano”

de los usuarios y se desea clasificar a las personas en 2 grupos (clusters). Los

datos del estudio se encuentran en el archivo transporte.sav.

a) Utilizando el método de clasificación K medias responda lo siguiente:

a.1) Indique el número de personas que conforman cada uno de los grupos

a.2) Con 1% de significación, ¿qué variable(s) no es (son) significativa(s) en

la conformación de los grupos?

b) Utilizando el método de clasificación que empieza con la ubicación de los casos

más cercanos, responda lo siguiente:

b.1) Indique el número de vendedores que conforman cada uno de los grupos:

b.2) ¿Qué ocurre en el paso 18 del Historial de conglomeración?

Caso: Percepción de calidad de los servicios de transporte

Page 32: A. Discriminante

ANÁLISIS DISCRIMINANTE

Es una técnica multivariante de clasificación de individuos en grupos

sistemáticamente distintos, utilizando también diversas técnicas factoriales.

Se parte de dos o más grupos de objetos o individuos, de los que conocemos

los valores de p variables, basado en la normalidad multivariante de las

variables consideradas.

Objetivo:

Obtener un modelo matemático discriminante contra el cual sea contrastado

el perfil de un nuevo individuo cuyo grupo se desconoce para, en función de

un resultado numérico, ser asignado al grupo más probable.

Page 33: A. Discriminante

El Análisis discriminante ayuda a identificar las características que

diferencian (discriminan) a dos o más grupos, y a crear una función

capaz de distinguir con la mayor precisión posible a los miembros de

uno u otro grupo.

La pertenencia a los grupos, conocida de antemano, se utiliza como

variable dependiente (una variable categórica con tantos valores

discretos como grupos). Las variables en las que suponemos que se

diferencian los grupos se utilizan como variables independientes o

variables de clasificación (también llamadas variables discriminantes)

deben ser variables cuantitativas continuas.

Puede aplicarse para:

Describir: Explicar la diferencia entre los distintos tipos de objetos.

Hacer Inferencia: Contrastar diferencias significativas entre

poblaciones.

Tomar de decisiones: Decidir donde clasificar un objeto.

Page 34: A. Discriminante

1) Análisis Discriminante Descriptivo: Analizar si existen

diferencias entre los grupos en cuanto a su comportamiento con

respecto a las variables consideradas y averiguar en qué sentido

se dan dichas diferencias.

2) Análisis Discriminante Predictivo: Elaborar procedimientos

de clasificación sistemática de individuos de origen

desconocido, en uno de los grupos analizados.

El análisis discriminante permite explicar la pertenencia de cada

individuo a un grupo (variable categórica) según la variable aleatoria

p-dimensional del objeto (variable explicativa).

El análisis discriminante permite predecir a qué grupo pertenece un

individuo nuevo, del que conocemos el valor de la variable p

dimensional clasificadora o explicativa.

Page 35: A. Discriminante

Supuestos y restricciones del análisis discriminante

• Cuando se tiene una variable categórica y el resto de variables son de

intervalo o de razón y son independientes respecto de ella.

• Es necesario que existan al menos dos grupos y para cada grupo se

necesitan dos o más casos.

• Si p es el número de variables discriminantes y n es el número de

objetos entonces se debe cumplir : p < n − 2.

• Ninguna variable discriminante puede ser combinación lineal de otras

variables discriminantes.

• Los grupos deben diferir significativamente en las medias poblacionales

(vectores de medias poblacionales diferentes)

• Las matrices de varianzas y covarianzas poblacionales de los grupos

deben ser iguales.

• Debe existir normalidad en las variables clasificadoras.

Page 36: A. Discriminante

Caso 3: Discriminación con dos grupos y una variable clasificadora:

En un banco se tiene información acerca de 16 clientes a los que se les concedió

un préstamo por un importe de 1 millón de dólares cada uno. Pasados 3 años de la

concesión de los préstamos había 8 clientes que fueron clasificados como fallidos,

mientras que los otros 8 clientes son cumplidores, ya que reintegraron el préstamo.

Para cada uno de los clientes se dispone de información sobre su patrimonio neto

y deudas pendientes que corresponden al momento de la solicitud.

Page 37: A. Discriminante

Fallidos No fallidos

ClientePatrimonio

netoDeuda

pendienteCliente

Patrimonioneto

Deudapendiente

12345678

1.33.75.05.97.14.07.95.1

4.16.93.06.55.42.77.63.8

910111213141516

5.29.89.0

12.06.38.7

11.19.9

1.04.24.82.05.21.14.11.6

Total 40.0 40.0 Total 72.0 24.0

Media 5.0 5.0 Media 9.0 3.0

En este caso, por lo tanto, existen 2 posibles variables clasificadoras, Se pueden usar las dos

juntas o de una en una ( p = 2 ó 1) y dos grupos a discriminar (q = 2). El tamaño de la

muestra es n = 16 con n1 = 8 y n2 = 8.

Page 38: A. Discriminante

Suponemos que existen 2 poblaciones o grupos, a los que denominamos I y

II, y una sola variable clasificadora, a la que se denomina X.

Para nuestro ejemplo escogeremos a la variable “Patrimonio Neto” como

variable clasificadora.

El grupo de clientes fallidos será el I y el grupo de clientes no fallidos será

el II.

Se tiene que las medias muestrales de cada grupo son:

9;5 III XX

Se calcula un punto de corte:

Este punto de corte se utilizará para clasificar a los clientes a los que se

les ha concedido el préstamo en el banco:

Si X < 7 se clasifica en el grupo I (cliente fallido)

Si X > 7 se clasifica en el grupo II (cliente no fallido)

72

952

III XXC

Page 39: A. Discriminante

Según esta regla de clasificación en nuestro ejemplo tenemos:

Grupo real: Fallidos Grupo real: No fallidos

ClientePatrimonio

netoClasificado

como :Cliente

Patrimonioneto

Clasificado como:

12345678

1.33.75.05.97.14.07.95.1

FallidoFallidoFallidoFallido

No fallidoFallido

No fallidoFallido

910111213141516

5.29.89.012.06.38.711.19.9

FallidoNo fallidoNo fallidoNo fallido

FallidoNo fallidoNo fallidoNo fallido

Se puede observar que 4 clientes han sido mal clasificados según la regla utilizada.

Page 40: A. Discriminante

Porcentaje de clasificaciones correctas e incorrectas:

Situación real

Clasificados como Total

Fallidos No fallidos

Fallidos 6 (75%) 2 (25%) 8 (100%)

No fallidos 2 (25%) 6 (75%) 8 (100%)

Del total de 16 casos, 4 han sido incorrectamente clasificados.

Page 41: A. Discriminante

Los pasos en el SPSS son los siguientes, ingresar los datos y seguir la secuencia mostrada:

Page 42: A. Discriminante

Se ingresa la variable dependiente (categórica) o variable de agrupación, que contiene los códigos de los grupos, se define el rango de valores, y como variables independientes (cuantitativas continuas) se ingresan las variables discriminantes, en este caso Patrimonio. Se selecciona “Usar método de inclusión por pasos”.

Page 43: A. Discriminante

Luego se completan los datos como se muestra a continuación:

Page 44: A. Discriminante

Caso 4: Discriminación con dos grupos y dos variables clasificadoras:

En este caso utilizaremos las variables “Patrimonio Neto” y

“Deuda Pendiente” como clasificadoras”.

Para esto introduciremos las notaciones y definiciones

necesarias.

Page 45: A. Discriminante

CÁLCULO DE LAS FUNCIONES DISCRIMINANTES

En este caso utilizaremos las variables “Patrimonio Neto” y “Deuda

Pendiente” como clasificadoras”.

Para esto introduciremos las notaciones y definiciones necesarias.

La discriminación entre los q grupos se realiza mediante el cálculo de

unas funciones matemáticas denominadas funciones discriminantes.

Existen varios procedimientos para calcularlas, veamos el

procedimiento de Fisher.

Page 46: A. Discriminante

Considera como funciones discriminantes, a combinaciones

lineales de las funciones clasificadoras, es decir:

Procedimiento Discriminante de Fisher

D = u1X1 + u2X2 + ... + upXp = u’X

Para cada uno de los n individuos se puede calcular el valor de

la puntuación discriminante haciendo:

Di = u1X1i + u2X2i + ... + upXpi

Page 47: A. Discriminante

CRITERIO PARA LA OBTENCIÓN DE LA FUNCIÓN DISCRIMINANTE DE FISHER:

WuuBuu

Maximizar

gruposraadVariabilidgruposentreadVariabilid

Maximizar

''

int

Se quiere calcular r funciones discriminantes con varianza 1, y

que sean incorrelacionadas entre sí, es decir, que verifiquen que ui’Wuj = Iij ; i, j =1,…,r, estas se obtienen como soluciones los r

auto vectores de W-1B asociados a los r mayores auto valores de esta matriz, λ1 ≥ … ≥ λr > 0. A las funciones Di = ui’X ,i=1,…,r,

se les llama funciones discriminantes canónicas o funciones

discriminantes de Fisher.

Page 48: A. Discriminante

Los valores propios λi ; i=1,...,r miden el poder de

discriminación de la i-ésima variable discriminante de forma que si λi=0, la variable discriminante no tiene ningún

poder discriminante.

Dado que el rango de la matriz W-1B es a lo más min {q-1,

p}, el número máximo de funciones discriminantes que se

podrán calcular será igual a min {q - 1, p}.

Si tuviéramos que discriminar en dos grupos, calculamos los

centros de gravedad o centroides:

IIp

II

II

II

Ip

I

I

I

X

X

X

X

X

X

X

X

,

,2

,1

,

,2

,1

Page 49: A. Discriminante

Sustituyendo en la función discriminante los elementos de

los centroides tenemos:

IppII XuXuD ,,11 ...

IIppIIII XuXuD ,,11 ...

Luego el punto de corte sería:

2III DD

C

Page 50: A. Discriminante

El criterio para clasificar al individuo i es el siguiente:Si Di < C, clasificar al individuo i en el grupo I.

Si Di > C, clasificar al individuo i en el grupo II.

El criterio anterior es equivalente a: Si Di – C < 0, clasificar al individuo i en el grupo I.

Si Di – C > 0, clasificar al individuo i en el grupo II.

Page 51: A. Discriminante

Para el ejemplo tenemos los centroides

3

9

5

5

,2

,1

,2

,1

II

IIII

I

II X

XX

X

XX

La función de clasificación lineal que se obtiene aplicando el

método de Fisher es la siguiente: D = 1.036 X1-0.932 X2

Sustituyendo los valores de los centroides y calculando el punto

de corte tenemos :

Luego la función D-C está dada porD – C =1.036 X1-0.932 X2 – 3.52

Page 52: A. Discriminante

Los pasos en el SPSS son los siguientes

Page 53: A. Discriminante

Ahora ingresamos las dos variables clasificadoras: Patrimonio y Deuda.

Page 54: A. Discriminante

Se completan los datos como aparece a continuación:

Page 55: A. Discriminante

El programa SPSS no nos proporciona la función D-C, pero

nos ofrece las funciones llamadas Funciones Discriminantes

Lineales de Fisher:

Coeficientes de la función de clasificación

 

Grupo

1 2Patrimonio .777 1.813

Deuda 1.296 .364

(Constante) -5.876 -9.396

Funciones discriminantes lineales de Fisher

396.9364.0813.1

876.5296.1777.0

212

211

XXF

XXF

Page 56: A. Discriminante

Se puede comprobar que los coeficientes de la segunda columna

menos los de la primera columna producen los coeficientes de la

función D – C.

Para el ejemploD – C = (1.813-0.777)X1+(0.364-1.296)X2+(-9.396)-(-5.876)

= 1.036 X1 -0.932 X2 -3.52

Con las funciones lineales discriminantes de Fisher también se

puede clasificar a un individuo:

Se calculan las puntuaciones para el caso nuevo, en cada

función discriminante lineal de Fisher, y se clasifica el caso en

el grupo para el cual obtiene la mayor puntuación.

Este método se puede generalizar a más de dos grupos a

clasificar

Page 57: A. Discriminante

Por ejemplo para un cliente que tiene un patrimonio neto de 1.5 y una deuda pendiente de 3.5 se tendría: X1=1.5 y X2=3.5

F1 = 0.777 (1.5) + 1.296 (3.5) – 5.876 = -0.1745

F2= 1.813 (1.5) +0.364 (3.5) – 9.396 = -5.4025

Entonces este cliente sería clasificado como miembro del grupo

1 o sea fallido.

Page 58: A. Discriminante

Prueba de la función discriminante

Hipótesis:Ho: La función discriminante no es significativa

H1: La función discriminante es significativa

Criterio de decisión:“Se rechaza H0 si P-valor < α”.

El p-valor se encuentra el la tabla Lambda de Wilks

(Sig.)

Para nuestro ejemplo P-valor = 0.002 < 0.05

entonces se debe rechazar Ho.

Conclusión: La función discriminante es

significativa.

Page 59: A. Discriminante

Correlación CanónicaLa correlación canónica viene dada por:

1

Es una medida de asociación entre las puntuaciones

discriminantes y el grupo. Mide la calidad de la función

discriminante.

Toma valores entre 0 y 1 de forma que, cuanto más cerca de 1

esté su valor, mayor es el poder discriminante de función

discriminante.

Page 60: A. Discriminante

Resumen de las funciones canónicas discriminantes

En la tabla se muestra el valor de 1 = 1.716 y de la correlación canónica = 0.795

obtenidos mediante el programa SPSS. Como este valor es cercano a 1 la calidad de

discriminación de la función discriminante es muy buena.

Page 61: A. Discriminante

I) Prueba para comparar las medias:

1. Hipótesis: H0:No existe diferencia entre las medias de la variable Xi en

los grupos de referencia. H1: Existe diferencia entre las medias de la variable Xi en los

grupos de referencia.2. Estadístico de prueba: F0

3. Criterio de decisión: Si p-value < α se rechaza H0.

Los p-values se obtienen en la salida del SPSS en la tabla de

igualdad de medias de grupos. Para nuestro ejemplo tenemos la

siguiente tabla:

Page 62: A. Discriminante

II) PRUEBA DE BARTLETT-BOX (M DE BOX)Se plantean las hipótesis:H0: Σ1= Σ2 (Las matrices de covarianzas son iguales)

H1: Σ1≠ Σ2 (Las matrices de covarianzas no son iguales)

A continuación se presentan los resultados del SPSS para

verificar que se cumpla el supuesto de varianzas iguales.

Resultados de la pruebaM de Box .951

F Aprox. .268gl1 3gl2 35280.000Sig. .849

Contrasta la hipótesis nula de que las matrices de covarianzas poblacionales son iguales.

Como el P-value = 0.849, en conclusión no se puede rechazar

la hipótesis nula, entonces se cumple la condición de matrices

de covarianza iguales.

Page 63: A. Discriminante

Matriz de Estructura

Es una matriz p*r que contiene, por filas, los coeficientes de

correlación de las funciones discriminantes con las variables

originales. De esta forma es posible interpretar el significado de

las mismas utilizando, para cada una de ellas, aquéllas variables

con las que está más correlacionada. De cara a facilitar dicha

interpretación se suelen realizar rotaciones ortogonales del

espacio de discriminación similares a las utilizadas por el

Análisis Factorial.

Page 64: A. Discriminante

Analizando la matriz de estructura de la función discriminante

se observa que la correlación de dicha función con la

variable Patrimonio, 0.748, es mayor, en valor absoluto,

que la correlación con la variable Deuda , -0.452. Por lo tanto

la variable Patrimonio contribuye más en la formación de la

función discriminante.

Matriz de estructura

 

Función

1Patrimonio .748

Deuda -.452

Correlaciones intra-grupo combinadas entre las variables discriminantes y las funciones discriminantes canónicas tipificadas Variables ordenadas por el tamaño de la correlación con la función.

Page 65: A. Discriminante

EL SPSS nos proporciona además las probabilidades de pertenencia de los casos a

cada grupo como Dis1_2 y Dis2_2:

Un individuo será clasificado al grupo para el cual tenga una mayor probabilidad, la clasificación se puede encontrar en la columna Dis_1.

Page 66: A. Discriminante

Gracias

Prof: Marco [email protected]