Upload
carmen723
View
22
Download
8
Embed Size (px)
DESCRIPTION
discriminante
Citation preview
Análisis discriminante.
Es una generalización de la regresión logísticaEs un método que permite clasificar nuevos individuos en grupos apriorimente formados.EjemploIris.X1 largo de sepalosX2 ancho de sepalosX3 largo de petalos
Grupo : setosaVersicolorVirginca
Si , la función discrimínate es lineal1
2
3
Prueba de igualdad de mediasX1 longitud de sepalo
P=sig=0,000<0.05 se acepta Ha
Prueba de igualdad de mediasX2 ancho de sepalo
P=sig=0,000<0.05 se acepta Ha
Prueba de igualdad de mediasX3 largo de petalos
P=sig=0,000<0.05 se acepta Ha
Graf
A menor valor de lambda de wilks (lambda cercano a cero) mayor poder discriminante.Lambda de wilks de x3 es menor que las demás variables entonces x3 presenta mayor discriminante.A mayor F mayor poder discriminate
Prueba de M de box¿qué función discriminante es la más adecuada?
P=sig=0.000<0.05 se acepta Ha
F1 es la más adecuada
Están en su propia escala
Tiene una escala tipificada (estandarizada)
Centroides
Función discriminante canónica
Reemplazando medias para setosa, versicolor y virginica en la función canónicaSetosa
Versicolorvirginica
Ejemplo:X1=5.4X2=3.9X3=1.7
Se nota q f1 discrimina mejor q f2 por otro lado entre versicolor y virginica se puede tener error
Análisis de clúster
Técnica multivariado para agrupar eltos con características similares (estratos, segmentos, clases, taxonomía,…)
Agrupan casos(sujetos, países, plantas,…)
Grupo homogéneo→mínima distancia (variables cuantitativas). → máxima similitud (variables cualitativa).
Agrupamiento de Variables.
Para formar grupos homogéneos Existen dos métodos de clúster: jerárquicos (se desconoce el número de grupos a formar) Métodos:Aglomerativos: Todos los sujetos son grupos diferentes y luego se agrupan de acuerdo con sus similitudes.Método de vecino más cercano, vecino más lejano, …Disociativos: se asume al inicio como un solo grupo y paso a paso se extrae los sujetos con características diferentesMétodo ward no jerárquicos (se conoce de antemano el número de grupos a establecer).Método K-medias.
Ejemplo supongamos que se ha evaluado las competencias académicas de 5 docentes en los siguientes indicadores
profesor X1 X2 X3 X4
A 0 0 0 0
B 9 0 0 0
C
D
E
Sup la sigte matríz de distanciasA B C D E
A 0B 9 0
D= C 3 7 0D 6 5 9 0E 11 10 2 8 0
Utilizando el método jerárquico de vecino más cercano. d(E,C)=2 forman el primer clúster.
A B EC DA 0B 9 0
D1= EC 3 7 0D 6 5 8 0
PASO 2 EC y AA B D
A(EC) 0D2= B 9 0
D 6 5 0
PASO 3 D y B
A BDD3= A(EC) 0
B D 0
Dendograma
Ejemplo con spss mundo2.savClúster jerárquico
Los países son casos
Y aceptarCluster
Se ven 3 grupos Ahora de nuevo sabiendo el número de grupos
Continuar y aceptar
Vemos si las variables sirven para discriminar
Var: Averange linkageRango: min=1 y max=3Pasamos la varialbles seleccionadas.Cont y aceptar
De acuerdo a la significancia se ve que se pueden quitar 3 variables que no son necesarias.Mejorando Ana-clas-cluste jeEliminamos pobl, ingesta, natalidad.Se repite todoEn método vecino más cercano
Ejemplo spss 2: distritos peruanos.sav(si las variables dan la misma información osea presentan relación entre variables se agrupan usando un análisis factorial)
1 generamos nuevas variables independientes. (Ana Fact) En otro caso donde se aplica primero ana fact cuando p>o =30
Pasamos todas las variables cuantitativas
Cont y aceptar
Se encuentran 3 nuevas variablesAna-class-cluster j.
Aceptar
Ana-clas-cl j
Datos-ordenar
Las variables cualitativas se usan para el clúster con los factores hallados
Ana-clas-clu j
En los casos de muchas variables se recomienda el método de WardLas variabales puede ser correlaciones, coseno, ..
Las dos primeras para casosLas dos siguientes variables cuantitativasCasos o var cualitativas : chebychev y minkowski
Análisis de clúster no jerárquicoEl número de clúster está definido a priori K=5Técnica K-medias
Correlación canónica: analiza la relación entre factores
Se tiene:
var independiente → (factores)
¿existe relación?
var dependiente → (factores)
Satisf.savSe selecciona de acuerdo a las variables
Definir
Pasamos las “Y” y definimos rangos
SigPasamos las X y definimos rango de cada una de ellas
Opciones
Cont-aceptar
1.347 el modelo es adecuado (máximo es 2 por en número de dimensiones)
La suma mide la importancia a mayor suma mayor importancia
Relación entre variablesCorrelación múltiple:
Datos-ponderar casos-mediante-frecuencia (aceptar)Ana-reducción de dimensión –escalonamiento