207067319 Clasificacion Con Analisis Discriminante

Embed Size (px)

DESCRIPTION

Analisis discriminante de Fisher

Citation preview

  • Clasificacin con Anlisis DiscriminanteAnlisis Multivariante:Investigacin que da ResultadosIng. Amir Madrid Garzn

  • AplicacionesFiel o no a una marcaMe suscribira o no a un determinado peridicoComprador / No compradorApoya o no apoyaTelevidente o no televidente

  • Clasificacin de objetos en gruposEn calidad de consumidores seguramente habremos sido clasificados en grupos muchas veces, a menudo por parte de gente que sin saberlo est aplicando el anlisis discriminante.Por ejemplo, sin duda ya habremos pasado por una experiencia de categorizacin semejante a la que tuvieron las siguientes personas:

  • Ejemplo 1Alicia Rodrguez y algunas amigas fueron a un restaurante de lujo a celebrar el final del primer ao de universidad. La jefa de meseras, al darse cuenta de las clientes son universitarias y que no visten ropa cara, las acomoda en un rincn con mucha luz situado entre la entrada a la cocina y los baos de los caballeros. Quiz se haya equivocado al clasificar a Alicia y a sus amigas en la categora de clientes que gastan poco y que dan propinas pequeas.

  • Ejemplo 2Rodolfo Ramrez, luego de hacer la solicitud del seguro del automvil, se da cuenta de que la pliza anual le costar casi lo mismo que el coche. Aunque en los cinco aos que lleva conduciendo nunca ha tenido un accidente ni una sola infraccin, la compaa anota que tiene menos de 25 aos, no est casado y no ha recibido cursos de manejo.

  • Ejemplo 3Alfredo Montealbn, un mariscal de campo seleccionado para el equipo de estrellas de la liga colegial, no recibe ninguna llamada durante el reclutamiento de jugadores colegiales para la liga profesional. El servicio de reclutamiento de los equipos profesionales afirma que este jugador no tendra xito en el ftbol profesional por se de baja estatura.

  • Nos guste o no, los individuos y las empresas constantemente clasifican a las personas en grupos basndose en variables como la edad, escolaridad, ingresos, estado civil, peso fsico y talla, tipo de automvil que usan, indumentaria y promedio de puntos de calidad. Si bien quiz no se aplique especficamente el anlisis discriminante, los principios en que se funda esta tcnica matemtica estn presentes, es decir, a partir de un grupo de mediciones observadas podemos tratar de clasificar un individuo u objeto en un grupo.

  • Identificacin de las variables descriptivas que mejor determinan la pertenencia al grupo.Se examinan a miembros de grupos conocidos, con objeto de averiguar cules variables nos ayudan ms a diferenciar entre los miembros de cada uno.Por ejemplo, si trabajamos en prstamos para los consumidores, nos gustara identificar las variables que mejor discriminan entrePrestatarios anteriores que han pagado su deuda a tiempoPrestatarios anteriores que no la han pagado

  • Riesgo crediticio (Prstamos)Un ejecutivo de prstamos de una compaa hipotecaria debe decidir si aprueba un prstamo hipotecario a un solicitante. Esta decisin se toma determinando si las caractersticas del solicitante se apegan ms a las de personas que en el pasado pagaron debida y oportunamente sus prstamos que a las de aquellas que no cumplieron con los pagos.La informacin acerca de estos dos grupo, disponible a partir de registros pasados, incluira variables de pronstico como edad, ingresos, aos viviendo en el presente domicilio, aos en el trabajo actual, deudas pendientes, estado civil, estado de salud y posesin de ciertos bienes duraderos.

  • Por qu quiebran los negocios?Un investigador interesado en quiebras de negocios tal vez pueda agrupar las empresas de acuerdo a si quebraron o no con el paso del tiempo, con base en variables de pronstico como ubicacin, razones financieras o cambios en la administracin.El reto consiste en encontrar variables discriminantes que puedan usarse en una ecuacin de pronstico que produzca una asignacin de los individuos a los grupos y que sea mejor que una asignacin al azar.

  • Servicio de Administracin TributariaUtiliza un anlisis discriminante para comparar las declaraciones seleccionadas con las devoluciones compuestas hipotticas del contribuyente normal (para distintos niveles de ingreso) con el fin de identificar las devoluciones y reas ms prometedoras para la auditora.

  • Las revistasSe cuenta con informacin sobre la edad e ingresos referente aSuscriptores y no suscriptores de tres revistasBuena condicin fsica despus de los 50Aviso mensual de impuestosRevista de juegos de video

  • Anlisis Discriminantetil si la muestra total puede dividirse en grupos basndose en una variable de criterio caracterizada por varias categoras conocidas.Muchos problemas en marketing implican la investigacin de diferencias entre grupos de individuos.Se usa si la nica variable de criterio es dicotmica (es decir, comprador, no comprador) o multidicotmica ( es decir, alto-medio-bajo) y por tanto no mtrica.Cmo sern las ventas potenciales (buenas o malas) en un territorio dado de mercado, con base en ciertas evaluaciones sobre el ingreso personal disponible por territorio, densidad de poblacin, nmero de puntos de venta al detalle y dems?

  • Un buen vendedorEl gerente de ventas de la CompaaAlloy Steel est tratando de identificar qu determina a un buen vendedor, es decir, por qu algunos vendedores cumplen o rebasan sus cuotas y otros no.Al tratar de estudiar este asunto, el gerente de ventas recopila datos sobre los veinte vendedores de la compaa, incluyendo el cumplimiento o incumplimiento con la cuota, el nmero de aos de experiencia en ventas de acero de aleacin y el nmero de aos de educacin tcnica formal.El gerente de ventas reuni los datos de experiencia y educacin porque pens que le podran ayudar a identificar las caractersticas de un buen vendedor.

  • En este conjunto de datos hay tres elementos de informacin sobre cada vendedor: una variable de criterio categrica, la cual es si cumpli o no con su cuota este ao, y dos variables de pronstico mtricas.El nmero de aos de experiencia en ventas de acero de aleacinEl grado de educacin tcnica formal

  • El gerente de ventas de la Compaa puede preguntar Qu tan bien se ajusta el discriminante a los datos?Qu tan bueno es como pronstico?

  • AplicacionesEn trminos de caractersticas demogrficas, cul es la diferencia entre los clientes que son leales a la tienda y los otros?El consumo de alimentos congelados difiere entre los consumidores de refrescos frecuentes, moderado y espordicos?Qu caractersticas de estilo de vida distinguen a los compradores de abarrotes que se fijan en los precios de los que se fijan en la marca?Cules son las caractersticas demogrficas que diferencian entre los clientes habituales de una cadena de supermercados y los clientes ocasionales?De acuerdo a sus perfiles demogrficos y psicogrficos, Cules son las caractersticas que distinguen a los innovadores de los no innovadores?

  • AplicacionesDifiere la atencin a los medios en los segmentos de un mercado?En trminos de estilo de vida, cules son las diferencias entre los clientes constantes de las cadenas regionales de tiendas departamentales y los clientes de las cadenas nacionales?Cules son las caractersticas de los consumidores que responden a los cuestionarios por correo?Cmo se diferencian, en sus niveles de lectura de ciertas revistas, los encuestados que muestran alto inters en un nuevo conjunto de descripciones conceptuales, de los que muestran poco inters?Los vendedores de xito hacen ms visitas, ocupan ms tiempo en las ventas y recorren ms kilmetros que aquellos sin xito?

  • Objetivo de ADMIDENTIFICAR y entender cuales son las diferencias (caractersticas distintivas) de los individuos en cada grupo PRONOSTICAR la probabilidad de que una persona pertenezca a una clase o grupo particular de los que se conocen dichas caractersticas distintivas.

  • ANLISIS DISCRIMINANTETcnica de clasificacin para agrupar a los clientes y prospectos en dos o ms categoras diferentes definidas previamente.Permite asignar un individuo a un grupo definido a priori en funcin de una serie de caractersticas del mismo o de las respuestas dadas a una serie de preguntas (escalas de calificacin)

    NO REQUIERE DE NINGN CUESTIONARIO ESPECIAL

  • Discriminant Analysis The purpose of discriminant analysis is to correctly classify observations or people into homogeneous groups. The independent variables must be metric and must have a high degree of normality. Discriminant analysis builds a linear discriminant function, which can then be used to classify the observations. The overall fit is assessed by looking at the degree to which the group means differ (Wilkes Lambda or D2) and how well the model classifies. To determine which variables have the most impact on the discriminant function, it is possible to look at partial F values. The higher the partial F, the more impact that variable has on the discriminant function. This tool helps categorize people, like buyers and nonbuyers.

  • ANLISIS DISCRIMINANTE EN LA PRCTICAWhat characteristics best distinguish my various customer segments? In marketing research this analytical technique is the study of the differences between two or more groups of objects with respect to several variables simultaneously. The objects are individual products or services and the variables are usually descriptive ratings of each of these products or services on several attributes. It is commonly linked to the use of perceptual mapping. A major application in marketing is to discern which attributes best distinguish or discriminate among the various objects.

  • Explicar por qu los encuestados pertenecen a un cierto grupoClasificar nuevos encuestados con base en sus calificacionesDeterminar cules clientes son propensos a comprar un producto de una compaa.Decidir si un banco debe otorgar un crdito a una nueva compaa.Identificar pacientes que pueden estar en riesgo por problemas mdicos.

  • CUNDO DEBEMOS UTILIZAR EL ANLISIS DISCRIMINANTE?Mapas perceptuales de posicionamiento.tiles al revelar visualmente las posiciones competitivas actuales de los jugadores principales en una categora de producto o servicio. Los tipos de productos o marcas son los grupos en la variable dependiente; las variables independientes son las calificaciones de desempeo de los atributos.

  • CUNDO DEBEMOS UTILIZAR EL ANLISIS DISCRIMINANTE?Mapas de preferenciasLos tipos de productos o marcas son los grupos de la variable dependiente (como en los mapas anteriores), y las preferencias de productos o marcas son las variables independientes.Dos maneras:Pedir a los encuestados que ordenen los productos o marcas en trminos de una evaluacin general o frecuencia de uso.Basar las preferencias en las calificaciones generales.

  • CUNDO DEBEMOS UTILIZAR EL ANLISIS DISCRIMINANTE?Mapas de actitudesEl anlisis indica cules actitudes son las ms propensas a poseer los usuarios o dueos de los productos o marcas. Los tipos de productos o marcas son los grupos de la variable dependiente (como en los mapas anteriores), y las calificaciones de los encuestados en los enunciados de las actitudes en cierta categora son las variables independientes.

  • CUNDO DEBEMOS UTILIZAR EL ANLISIS DISCRIMINANTE?Mapas de Estilos de vidaEl anlisis muestra cules actividades, intereses, opiniones, etc. Son las que estn ms asociados con los usuarios ms frecuentes de cada producto o marca.La variable dependiente consiste en los productos o marcas especficas; las variables independientes son las calificaciones de los encuestados sobre los enunciados de estilos de vida en general.

  • PREGUNTAS A RESPONDERAdministradores de ventas: Evaluar sus clientes prospectosCules son las caractersticas sociodemogrficas y psicogrficas, estilos de vida, etc. de los compradores de un producto determinado?Cules son las caractersticas demogrficas que diferencian entre los clientes habituales de una cadena de supermercados y los clientes ocasionales?Es distinto el estilo de vida de los compradores de productos de alimentacin sensibles al precio del estilo de vida de los sensibles a las marcas?En qu se diferencian los consumidores que han respondido positivamente a una campaa de marketing directo a los que no lo han hecho?

  • PREGUNTAS A REPONDERQu marca de coche es ms probable que compre un nuevo comprador en funcin de su perfil sociodemogrfico?Qu nivel de consumo de un producto (elevado, medio o bajo) es previsible que tengan los individuos recin incorporados al mercado en funcin de sus motivaciones de compra y utilizacin prevista del producto?Bancos y aseguradoras: En qu categora de riesgo crediticio se encuentra un cliente?En general, para discriminar diferentes grupos de individuos (personas fsicas, empresas, productos, etc.) a partir de una serie de variables independientes.

  • Ejemplos ilustrativos

  • CerealDeseamos saber si la cantidad de protena y vitamina D influye en las evaluaciones que hacen los consumidores de los cereales.A cada uno de los diez consumidores que evalan se les pide solamente clasificar el cereal en una de dos categoras: gustar versus disgustar.Los datos aparecen en el archivo cereal.savLas variables de pronstico son:X1: la cantidad de protenas (en gramos) pro 2 onzas servidas, yX2: el % de requerimientos diarios mnimos de vitamina D por dos onzas servidas.

  • Grfico de dispersin de los datosNotamos que se puede lograr una discriminacin perfecta con X1 si trazramos una lnea perpendicular al eje horizontal entre los valores de la escala 6 y 7.Por otra parte, no hay forma de que el uso de X2 sola nos condujera a separar los grupos.Dada esta imagen, no nos sorprendera que el mejor compuesto lineal resulte en favorecer X1 con un peso considerablemente mayor que el que X2 recibe.

  • Por qu no usar X1 sola, en vez de un compuesto de X1 y X2?Los datos de la tabla representan slo una muestra; es muy posible que observaciones adicionales demuestren que X1 sola no efectuar una discriminacin perfecta entre los dos grupos.No hemos tomado explcitamente en consideracin ni la variabilidad sobre X1 versus X2 ni su correlacin.

    Una de las mejores caractersticas del AD es que todos los tres aspectos de los datos (centroide, varianza y correlacin) son considerados al desarrollar el compuesto lineal que separe al mximo los grupos.

  • EJEMPLOS ILUSTRATIVOSUn investigador educativo desea saber qu variables discriminan entre los graduandos de preparatoria que decidenIr a la UniversidadIr a una escuela comercial o tcnicaNo buscar ms educacin o entrenamiento.Para este propsito el investigador podra recolectar informacin en numerosas variables previamente a la graduacin de los estudiantes. Despus de la graduacin, la mayora de los estudiantes caera naturalmente en alguna de estas tres categoras.El AD se puede usar para predecir cules son las variables que mejor predicen la prxima eleccin educativa de los estudiantes.http://www.statsoft.com/textbook/stathome.html?stdiscan.html&1

  • EJEMPLOS ILUSTRATIVOSUn investigador mdico puede recabar diferentes variables relacionadas con el background de sus pacientes para aprender cules variables predicen mejor si un paciente es propenso a Recuperarse por completoRecuperarse parcialmenteNo poder recuperarse

    Un bilogo puede registrar diferentes caractersticas de tipos (grupos) similares de flores, y luego realizar un AD para determinar el conjunto de caractersticas que permiten la mejor discriminacin entre los grupos.

  • EJEMPLO ILUSTRATIVO MKTEn un estudio de mercado cuyo objetivo consisti en determinar las caractersticas que diferencian entre los clientes actuales de una cadena de comida rpida y los que nunca han sido clientes de la cadena, se obtuvo informacin de 370 individuos, de edades comprendidas entre los 15 y los 50 aos, consumidores de comida rpida en los ltimos 3 meses.Dicotmica. Cliente de al cadena (1= S. 2= No)Tipo de comida rpida preferida (Likert 1 al 7)Importancia dada a las promociones y descuentos (1-9)Nmero de veces al mes que van a la comida rpida.Nmero de veces al mes que van a otro restaurante.Edad del consumidor (en aos)

    La aplicacin de un anlisis discriminante permitir conocer si los clientes habitualesde la cadena tienen un perfil distinto de los consumidores que nunca han sido clientesde la cadena y cules variables diferencian ms entre los dos grupos.

  • Objetivos del cursoDescribir el concepto de anlisis discriminante, sus objetivos y sus aplicaciones a la investigacin de mercados.Sintetizar los procedimientos para efectuar anlisis discriminante: formulacin del problema, estimacin de los coeficientes de la funcin discriminante, determinacin de la significancia, interpretacin y validacin.Detallar el anlisis discriminante mltiple y su distincin del anlisis discriminante de dos grupos.Explicar el anlisis discriminante progresivo y el procedimiento Mahalanobis.

  • Seguros y bancosLa tcnica del Anlisis Discriminante aplicada al sector asegurador se ha dado en llamar "Insurance Scoring". Consiste en utilizar la experiencia histrica de la empresa para disear un modelo, aplicable a nuevos clientes, que nos asigna cada cliente a una cierta categora con una cierta probabilidad, como por ejemplo predecir si un cliente ser rentable o no para la compaa de seguros anticipando el riesgo de siniestro, pudiendo as ajustar la prima de riesgo. (MODULO BASE)La tcnica del Anlisis Discriminante aplicada al sector bancario se ha dado en llamar "Credit Scoring ". Consiste en utilizar la experiencia histrica de la empresa para disear un modelo, aplicable a nuevos clientes, que nos asigna cada cliente a una cierta categora con una cierta probabilidad, como por ejemplo determinar la posibilidad de recobro de un cliente en base a ciertas variables como, salario, tiempo de amortizacin del prstamo, n de hijos, etc. (MODULO BASE)

  • Ejemplo 1Un ejecutivo de prstamos de una compaa hipotecaria debe decidir si aprueba un prstamo hipotecario a un solicitante.Esta decisin se toma determinando si las caractersticas del solicitante se apegan ms a las de personas que en el pasado pagaron debida y oportunamente sus prstamos que a las de aquellas personas que no cumplieron con los pagos. La informacin acerca de estos dos grupos, disponible a partir de registros pasados, incluira factores como edad, ingresos, estado civil, deudas pendientes y posesin de ciertos bienes duraderos.

  • Ejemplo 2En el proyecto de tienda departamental se hizo un anlisis discriminante de dos grupos para examinar si los entrevistados que estaban familiarizados con las tiendas (comparados con los que no lo estaban) asignaban una importancia relativa diferente a los ocho criterios de eleccin. La variable de criterio eran los dos grupos de familiaridad.Las variables de pronstico eran la importancia concedida a los ocho criterios de seleccin.

  • ResultadosLa funcin discriminante fue significativa, seal de que haba diferencias importantes entre los dos grupos.En comparacin con los entrevistados que no estaban familiarizados, los entrevistados familiarizados concedan mayor importancia a la calidad de la mercanca, las polticas de devoluciones y cambios, el servicio del personal y las polticas de crdito y facturacin.

  • Ejemplo 3Por trmino medio, las personas de los pases de zonas templadas consumen ms caloras por da que las de los trpicos, y una proporcin mayor de la poblacin de las zonas templadas vive en ncleos urbanos. Un investigador desea combinar esta informacin en una funcin para determinar cmo de bien un individuo es capaz de discriminar entre los dos grupos de pases. El investigador considera adems que el tamao de la poblacin y la informacin econmica tambin pueden ser importantes.

  • ResultadosEl anlisis discriminante permite estimar los coeficientes de la funcin discriminante lineal, que tiene el aspecto de la parte derecha de una ecuacin de regresin lineal mltiple. Es decir, utilizando los coeficientes a, b, c y d, la funcin es:D = a * clima + b * urbanos + c * poblacin + d * producto interior bruto per capitaSi estas variables resultan tiles para discriminar entre las dos zonas climticas, los valores de D sern diferentes para los pases templados y para los tropicales. Si se utiliza un mtodo de seleccin de variables por pasos, quizs no se necesite incluir las cuatro variables en la funcin.

  • Objetivos principales de ADFUNCIONES DISCRIMINANTES (combinaciones lineales de variables de pronstico) que discriminan mejor entre categoras de la variable de criterio (grupos).DESCRIPCIN: Examinar si hay diferencias significativas entre los grupos en trminos de las variables de pronstico.IMPORTANCIA RELATIVA: Determinar qu variables de pronstico contribuyen o cuentan ms para explicar las diferencias entre grupos.PREDICCIN: Clasificar nuevos sujetos u objetos cuyos perfiles son conocidos, pero no su identidad, a uno los grupos.EXACTITUD: Evaluar la exactitud de la clasificacin.

  • El reto consiste en encontrar variables discriminantes que puedan usarse en una ecuacin de prediccin que produzca una asignacin de los individuos a los grupos y que sea mejor que una asignacin al azar.

  • Anlisis DiscriminanteEs una tcnica para analizar datos cuando una variable de criterio es categrica y las variables de pronstico son de naturaleza de intervalo.Ejemplo:Preferencia de una marca de PC (marca A, B o C)Calificaciones de los atributos de las PC en una escala de Likert de siete puntos.

  • Anlisis DiscriminanteEl anlisis discriminante resulta til para construir un modelo predictivo para pronosticar el grupo de pertenencia de un caso a partir de las caractersticas observadas de cada caso. El procedimiento genera una funcin discriminante (o, para ms de dos grupos, un conjunto de funciones discriminantes) basada en combinaciones lineales de las variables predictoras que proporcionan la mejor discriminacin posible entre los grupos. Las funciones se generan a partir de una muestra de casos para los que se conoce el grupo de pertenencia; posteriormente, las funciones pueden ser aplicadas a nuevos casos que dispongan de medidas para las variables predictoras pero de los que se desconozca el grupo de pertenencia.

  • Nota: La variable de agrupacin puede tener ms de dos valores. Los cdigos de la variable de agrupacin han de ser nmeros enteros y es necesario especificar sus valores mximo y mnimo. Los casos con valores fuera de estos lmites se excluyen del anlisis.

  • Semejanzas y diferencias entre ANOVA, Regresin y Discriminante

  • Regresin vs Discriminante

  • EstadsticosPara cada variable: medias, desviaciones tpicas, ANOVA univariado.Para cada anlisis: M de Box, matriz de correlaciones intra-grupos, matriz de covarianzas intra-grupos, matriz de covarianzas de los grupos separados, matriz de covarianzas total. Para cada funcin discriminante cannica: autovalores, porcentaje de varianza, correlacin cannica, lambda de Wilks, chi-cuadrado. Para cada funcin discriminante cannica: autovalores, porcentaje de varianza, correlacin cannica, lambda de Wilks, chi-cuadrado. Para cada paso: probabilidades previas, coeficientes de la funcin de Fisher, coeficientes de funcin no tipificados, lambda de Wilks para cada funcin cannica.

  • DatosLa variable de agrupacin debe tener un nmero limitado de categoras distintas, codificadas como nmeros enteros. Las variables de pronstico que sean nominales deben ser recodificadas, mediante la creacin de nuevas variables, a valores numricos que correspondan en algn sentido a las categoras originales. En el caso de variables con dos categoras, sus valores se pueden recodificar a valores 0 y 1. el valor 1 indicar la presencia de la cualidad correspondiente a una de las dos categoras, y el 0, la ausencia de dicha cualidad (en consecuencia, la presencia de la otra).

  • Categora de referenciaCuando una variable presente ms de dos categoras, debern generarse tantas variables como el total de categoras menos uno. Cada nueva variable tomar valor 1 para una determinada categora y 0 en el resto, de tal forma que los individuos en una misma categora tomarn valor 1 en una misma variable y 0 en el resto. La categora no considerada, o categora referencia, estar representada por el valor 0 en todas las nuevas variables. Mediante este esquema de codificacin, los coeficientes de las nuevas variables reflejarn el efecto de las categoras representadas respecto al efecto de la categora de referencia.

  • SupuestosLas variables de pronstico o estn altamente correlacionadas entre s.La media y la varianza en una variable de pronstico no estn correlacionadas.La correlacin entre dos variables de pronstico es constante a travs de los grupos, (el experimento se realice en las mismas circunstancias y no debe haber diferentes fuentes de variacin que haga que los grupos sean diferentes).Los valores (objetos o sujetos) deben ser independientes. Los valores de las variables de pronstico deben tener una distribucin normal .

  • SupuestosEl procedimiento es ms efectivo cuando la pertenencia al grupo es una variable verdaderamente categrica; si la pertenencia al grupo se basa en los valores de una variable continua (por ejemplo, un cociente de inteligencia alto respecto a uno bajo), considere el uso de la regresin lineal para aprovechar la informacin ms rica ofrecida por la propia variable continua.Al llevar a cabo una clasificacin, se supone a priori, que el resultado obtenido es tan confiable como lo indica el porcentaje de clasificaciones correctas obtenidas en la etapa de validacin del modelo.

  • De la misma manera que el Anlisis Cluster, el objetivo del Anlisis Discriminante es la clasificacin de individuos en grupos. Sin embargo, tanto la tcnica como la informacin obtenida a travs de ambos mtodos es distinta.En el Anlisis Discriminante, el punto de partida es un colectivo de individuos clasificados en dos o ms grupos. De estos individuos se conoce el valor de un nmero determinado de variables. Puesto que se conoce la existencia de esos grupos, parece lgico pensar que existen variables cuyo valor determina la pertenencia del individuo a uno u otro grupo. Los objetivos del Anlisis Discriminante son:La identificacin de las variables que mejor discriminen entre los grupos y la evaluacin del poder discriminante de cada una de ellas. Asignar, con un cierto grado de riesgo, un individuo, que no forma parte de los datos iniciales, y del que se conoce el valor de las variables discriminantes, a uno de los grupos.

  • La seleccin de las variables discriminantes es el paso inicial de esta tcnica. Existen mtodos estadsticos que permiten detectar que variables discriminan mejor unos grupos de otros, y, aunque antes de realizar el anlisis se desconoce esta informacin, es conveniente introducir en el estudio todas las variables que pueden "explicar" la separacin de los individuos en los distintos grupos.Una vez que se han seleccionado las variables discriminantes, el objetivo a conseguir es la elaboracin de las funciones discriminantes, que son nuevas variables combinacin lineal de las anteriores. Los coeficientes de la funcin discriminante indican el peso de cada variable en la funcin discriminante, y, una vez obtenidos estos coeficientes, se podr asignar a cada individuo unos valores que permitirn asignarle a uno u otro grupo.

  • Anlisis Discriminante simple en SPSS

    Dos grupos o categoras.

  • PROCEDIMIENTOFormulacin del problemaEstimacin de los coeficientes de la funcin discriminante.Determinacin de la significancia de la funcin discriminante.Interpretacin de los resultados.Evaluacin de la validez del anlisis.

  • I. Planteamiento del problemaIdentificar los Objetivos del anlisis.

    Definir el Tamao de muestra total:Por cada variable de pronstico debe haber por lo menos 20 encuestados para mantener resultados estables.Cuando los tamaos de los grupos o categoras son desiguales se requiere efectuar una ponderacin. Calcular segn tamao de grupos

  • I. Planteamiento del problemaIdentificar la Variable de criterioDebe constar de dos, tres o mximo cuatro grupos o categoras Cuando tiene una escala de intervalo o de razn, primero debe convertirse en categoras.Opinin de marca, puede dividirse de una escala Likert de 7 puntos en las categoras de desfavorable (1,2,3), neutra (4) y favorable (5,6 y 7).Se puede graficar la distribucin de la variable dependiente y formar grupos del mismo tamao escogiendo puntos apropiados de divisin para cada categora.

  • I. Planteamiento del problemaMuestra de anlisis o de estimacin:Parte de la muestra total que se toma para estimar la funcin discriminante. Aprox. 70% del totalMuestra de validacin o de retencin:Parte de la muestra total que se toma para verificar los resultados de la muestra de estimacin. Aprox. 30% del total.Validacin cruzada doble: Cuando la muestra es bastante grande, puede dividirse a la mitad. Luego se intercambian las mitades y se repite el anlisis.La muestra debe seguir la distribucin total de la muestra.La validacin debe realizarse varias veces y en cada una la muestra debe dividirse en diversas parte de anlisis y validacin.

  • I. Planteamiento del problemaIdentificar las Variables de pronsticoSe eligen en base con un modelo terico o de investigaciones anterioresInvestigacin exploratoria: Experiencia.

  • Visitantes de un centro vacacionalObjetivo: Determinar las caractersticas ms notables de las familias que han visitado cierto centro vacacional en los dos ltimos aos.Muestra total: 42 hogaresMuestra de anlisis: 30 hogaresMuestra de validacin: 12 hogares

  • Muestra de anlisis

  • Muestra de validacin

  • Variable de criterio o agrupacinVISITA: Las familias que visitaron el centro vacacional en los dos aos anteriores fueron codificadas como 1. y las que no lo hicieron, como 2.Las muestras de anlisis y de validacin se equilibraron en trminos de VISITA.

  • Variables de pronsticoINGRESO: Ingreso familiar anualVIAJE: Opinin de los viajes (Likert 9 puntos).VACACIONES: Importancia concedida a las vacaciones familiares (Likert 9 puntos).TAMAO: Tamao de la familiaEDAD: Edad del jefe del hogar

  • Introduccin de VariablesSeleccione una variable de agrupacin con valores enteros y pulse en Definir rango para especificar las categoras de inters.Seleccione las variables independientes o de pronstico. (Si la variable de agrupacin no tiene valores enteros, la opcin Recodificacin automtica en el men Transformar crear una variable que los tenga).

    Men Analizar > Clasificar> Discriminante...

  • Definir rangoEspecifique los valores mnimo y mximo de la variable de agrupacin para el anlisis.Los valores mnimo y mximo deben ser nmeros enteros.Los casos con valores fuera de este rango no se utilizan en el anlisis discriminante, pero s se clasifican en uno de los grupos existentes a partir de los resultados que obtengan en el anlisis.

  • Seleccionar casosPara seleccionar casos para el anlisis:En el cuadro de dilogo Anlisis discriminante, seleccione una variable de seleccin.Pulse en Valor para introducir un nmero entero como valor de seleccin.Slo se utilizan los casos con el valor especificado en la variable de seleccin para derivar las funciones discriminantes. Tanto para los casos seleccionados como para los no seleccionados se generan resultados de clasificaciones y estadsticos. Este proceso ofrece un mecanismo para clasificar casos nuevos basados en datos previos o para dividir los datos en subconjuntos de anlisis y de validacin para realizar procedimientos de validacin en el modelo generado.

  • II. Estimacin de los coeficientes de la funcin discriminante.Mtodo directo:Introducir simultneamente todas las variables de pronstico que satisfacen el criterio de tolerancia, cualquiera que sea su poder de discriminacin.Apropiado si, a partir de investigaciones anteriores o de un modelo terico, el investigador quiere que la discriminacin se base en todas las variables de pronstico.

  • Mtodos de estimacinMtodo progresivo (por pasos):Utiliza el anlisis por pasos para controlar la entrada y la salida de variables de pronstico, las cuales se agregan en secuencia segn su capacidad de discriminar entre grupos.Apropiado cuando el investigador quiere elegir un subconjunto de variables para incluirlas en la funcin discriminante.

  • Resumen del procesamiento para el anlisis de casos

  • Botn Estadsticos

  • DescriptivosMedias. Muestra la media y desviacin tpica totales y las medias y desviaciones tpicas de grupo, para las variables de pronstico.ANOVAs univariadosRealiza un ANOVA de un factor sobre la igualdad de las medias de grupo para cada variable de pronstico.Test M de Box. Contraste sobre la igualdad de las matrices de covarianza de los grupos. Para tamaos de muestra suficientemente grandes, un valor de p no significativo quiere decir que no hay evidencia suficiente de que las matrices difieran. Esta prueba es sensible a las desviaciones de la normalidad multivariada.

  • Medias y desviaciones estndar.

  • Examen de medias y desviaciones Conviene antes de iniciar la estimacin de las funciones discriminantes, analizar en detalle las variables de pronstico del modelo.Parece que los grupos estn ms separados en trminos de ingreso que de otras variables.Parece haber mayor separacin en la importancia concedida a las vacaciones familiares que en la opinin sobre los viajes.La diferencia entre los dos grupos en cuanto a la edad del jefe del hogar es pequea y la desviacin estndar de esta variable es grande.

  • MatricesMatrices de coeficientes disponibles para las variables de pronstico.Correlacin intra-grupos. Muestra la matriz de correlaciones intra-grupos combinada, que se obtiene de promediar las matrices de covarianza individuales para todos los grupos antes de calcular las correlaciones.Covarianza intra-grupos. Muestra la matriz de covarianza intra-grupos combinada, la cual puede diferir de la matriz de covarianza total. La matriz se obtiene de promediar, para todos los grupos, las matrices de covarianza individuales.Covarianza de grupos separados. Muestra las matrices de covarianza de cada grupo por separado.Covarianza total. Muestra la matriz de covarianza para todos los casos, como si fueran una nica muestra.

  • Matriz de Correlacin intragruposMatriz de correlacin comn del grupo: Correlacin de Pearson entre las distintas variables de Pronstico del modelo.Detecta si existe multicolinealidad en las variables pronstico.En este caso indica que hay pocas correlaciones entre las variables de pronstico. Es poco probable que se presente un problema de multicolinealidad, dando as estabilidad a los parmetros que vamos a estimar.

  • Matriz de Covarianza intragruposMatriz de covarianza intragrupos: Calculada como media aritmtica ponderada de las covarianzas dentro de cada grupo de clasificacin.Se calcula para toda la muestra.

  • Matriz de Covarianza de grupos separados

  • Matriz de Covarianza de grupos total

  • de Wilks (estadstica U) y ANOVAs UnivariadosEs el cociente de la Suma de Cuadrados Intragrupos y la Suma de Cuadrados Total en un ANOVA simple para cada una de las variables de pronstico por separado y tendiendo como factor la variable de criterio.La lambda de Wilks para un conjunto de p variables independientes mide las desviaciones dentro de cada grupo respecto a las desviaciones totales sin distinguir grupos, en el espacio p-dimensional generado por los valores de las p variables.Si 1: No existe diferencia entre las medias de los grupos en la variable considerada. Los grupos estn mezclados.Si 0: Una gran parte de la variabilidad total es atribuible a la diferencia entre las medias de los distintos grupos.

  • Prueba F univariadasDetermina si cada una de las variables de pronstico, tomada de forma aislada, diferencia significativamente entre los grupos de la variable de criterio.Indica que cuando se consideran separadamente las variables de pronstico, slo el ingreso, la importancia de las vacaciones y el tamao del hogar distinguen de manera significativa entre quienes visitaron un centro vacacional y quienes no lo hicieron.

  • Test M de Box sobre la igualdad de las matrices de covarianzaContrasta hasta qu punto las matrices de varianzas-covarianzas para cada grupo o nivel de la variable pueden o no proceder de la misma poblacin, es decir, difieren o no significativamente.

  • Coeficientes de la funcinCoeficientes de clasificacin de Fisher: Muestra los coeficientes de la Funcin lineal de clasificacin de Fisher que pueden utilizarse directamente para la clasificacin. Se obtiene un conjunto de coeficientes para cada grupo, y se asigna un caso al grupo para el que tiene una mayor puntuacin discriminante.Coeficientes sin estandarizar: Muestra los coeficientes de la funcin discriminante sin estandarizar (los coeficientes brutos).

  • Resumen de las funciones cannicas discriminantesComo hay dos grupos slo se estima una funcin discriminante. El valor propio asociado a esta funcin es 1.7862, que significa 100% de la varianza explicada.La correlacin cannica es una medida de la asociacin entre cada funcin discriminante y la variable de criterio.La correlacin cannica asociada con esta funcin es 0.8007. El cuadrado de esta correlacin, (0.8007)^2 = 0.64, indica que 64% de la varianza de la variable de criterio (VISITA) se explica con este modelo.

  • Correlacin cannica y autovaloresLa correlacin cannica y el autovalor asociado a una funcin son dos medidas, relacionadas con la Lambda de Wilks, que permitirn evaluar la informacin que aportar cada funcin discriminante en particular.La correlacin cannica mide las desviaciones de las puntuaciones discriminantes entre grupos respecto a las desviaciones totales sin distinguir grupos. El autovalor mide las desviaciones de las puntuaciones discriminantes entre los grupos respecto a las desviaciones dentro de los grupos.En ambos casos, si el valor obtenido es grande la dispersin ser debida a las diferencias entre grupos y, en consecuencia, la funcin discriminar mucho los grupos.

  • III. Determinacin de la Significancia de la funcin discriminante.Se puede comprobar en forma estadstica la hiptesis nula de que las medias en la poblacin de todas las funciones discriminantes son de todos los grupos.Se basa en una transformacin de chi cuadrada de la estadstica de Wilks.En nuestro ejemplo, la de Wilks de 0.3589 se transforma en una chi cuadrada de 26.13 con 5 grados de libertad, que es significativo por arriba de 0.05.

  • Nota importanteNo tiene sentido interpretar los resultados si las funciones discriminantes estimadas no son estadsticamente significativas.Si se rechaza la hiptesis nula, lo que indica discriminacin significativa, se puede proceder a interpretar los resultados.

  • IV. Interpretacin de ResultadosCoeficientes de discriminacin: Interpretacin semejante al anlisis de regresin mltiple. El valor del coeficiente para una VP depende de las otras VP que se incluyan en el anlisis.Pueden aplicarse a los valores directos de las variables en la muestra de anlisis con fines de clasificacin. Funcin discriminante, tanto en valores estandarizados como no estandarizados.D = -7.975 +.085(70.3)+0.050(6)+.120(7)+.427(4)+.025(61)=2.3735

  • Los signos de los coeficientes asociados con todas las variables de pronstico son positivos, lo que indica que a ms ingreso familiar, tamao de la familia, importancia de las vacaciones familiares, opinin de los viajes y edad, es ms probable que una familia visite un centro vacacional.

  • IV. Interpretacin de ResultadosCoeficientes estandarizados Revelan la Importancia relativa de las variables de pronstico. En general, cuanto mayor sea el valor, mayor ser la potencia discriminante de la funcin, comparada con las variables de pronstico con coeficientes menores.

  • IV. Interpretacin de ResultadosCorrelaciones estructurales: Correlaciones simples entre cada variable de pronstico y la funcin discriminante.Representan la varianza que comparten con la funcin la variable de pronstico.Cuanto mayor sea la magnitud de una CE, ms importante ser la variable correspondiente de pronstico.

  • IV. Interpretacin de ResultadosCentroide: Se promedian las puntuaciones discriminantes para todos los individuos dentro de un grupo o categora particular para llegar a la media del grupo. Indican la ubicacin ms tpica de un individuo de un grupo en particular.Una comparacin de los centroides de los grupos muestra qu tan alejados estn los grupos a lo largo de la funcin discriminante.

  • Perfil de caractersticasSera razonable trazar un perfil de los dos grupos en trminos de las medias de las tres variables de pronstico que parecen ser las ms importantes.IngresoTamao de la familiaImportancia de las vacaciones

  • Grficos combinadosGrupos combinados. Crea un diagrama de dispersin, con todos los grupos, de los valores en las dos primeras funciones discriminantes. Si slo hay una funcin, en su lugar se muestra un histograma.

  • Grficos por grupos separadosGrupos separados. Crea diagramas de dispersin, de los grupos por separado, para los valores en las dos primeras funciones discriminantes. Si slo hay una funcin se muestra un histograma en su lugar.

  • Grficos por grupos separadosGrupos separados. Crea diagramas de dispersin, de los grupos por separado, para los valores en las dos primeras funciones discriminantes. Si slo hay una funcin se muestra un histograma en su lugar.

  • V. Evaluar la validez del ADAntes de interpretar con confianza algn resultado, es necesario validarlos.

  • Botn ClasificarCuadro de dilogo Anlisis discriminante: Clasificar

  • Probabilidades previasProbabilidades previas. Estos valores se utilizan para la clasificacin. Puede especificar que las probabilidades previas sean iguales para todos los grupos (Todos los grupos iguales), Dejar que los tamaos de grupo observados en la muestra determinen las probabilidades de la pertenencia al grupo (Calcular segn tamaos de grupos).

  • Probabilidades previasEn nuestro ejemplo se decidi que las probabilidades sean iguales para ambos grupos

  • Resultados para cada caso.Se muestran, para cada caso, los cdigos del grupo real de pertenencia, el grupo pronosticado, las probabilidades posteriores y las puntuaciones discriminantes.Los sujetos se asignan a grupos basados en sus puntuaciones discriminantes y en una regla de clasificacin apropiada (basada en el teorema de Bayes).En un AD de dos grupos se asignar un caso al grupo con el centroide ms cercano.

  • Tabla de resumen."Matriz de Confusin": Nmero de sujetos correcta e incorrectamente clasificados a cada uno de los grupos, basndose en el total de la muestra.Los coeficientes discriminantes, estimados en la muestra de anlisis, se multiplican por los valores de las variables de pronstico en la muestra de validacin para generar puntuaciones de discriminacin para los sujetos de esta ltima muestra.

  • Validacin cruzada con exclusinClasificacin dejando uno fuera. Se clasifica cada caso del anlisis mediante la funcin derivada a partir de todos los casos, excepto el propio caso. Tambin conocido como mtodo-U.El modelo discriminante se estima tantas veces como encuestados haya en la muestra.Se usa cuando no se puede tener una muestra de validacin grande.Confiere una sensacin de solidez de estimacin al tomar a cada encuestado, uno por uno, como muestra de validacin.

  • Resultados de la clasificacin

  • Proporcin de aciertosPorcentaje de casos bien clasificados.Se suman los elementos de la diagonal y se dividen entre el total de casos.Se espera que el porcentaje de sujetos bien clasificados con el AD sea por lo menos 25% mayor que el obtenido al azar.

  • Resultado de la clasificacinSujetos originales: 90% (27/30)Inflada artificialmente, pues los datos de la estimacin son los mismos para la validacin.Validacin cruzada: 80% (24/30).Muestra de validacin: 83.33 % (10/12).Dados dos grupos del mismo tamao, uno esperara por obra de la casualidad una proporcin de aciertos de = 50%.La mejora sobre el azar es de ms de 25 % y se considera satisfactoria la validez del anlisis discriminante.

  • Usar matriz de covarianzasExiste la opcin de clasificar los casos utilizando una matriz de covarianzas intra-grupos o una matriz de covarianzas de los grupos separados.Intra-grupos. Se utiliza la matriz de covarianza intra-grupos combinada para clasificar los casos.Grupos separados. Para la clasificacin se utilizan las matrices de covarianza de los grupos separados. Dado que la clasificacin se basa en las funciones discriminantes y no en las variables originales, esta opcin no siempre es equivalente a la discriminacin cuadrtica.

  • Evaluar riesgo crediticioSi usted es un oficial de prstamos en un banco, quiere poder identificar las caractersticas que indican si las personas van a fallar o no en un prstamo, y quiere usar esas caractersticas para identificar buenos y malos riesgos crediticios.700 clientes a los que se les otorg un prstamo.150 prospectos

  • Preparando los datos para el anlisisEl establecer una semilla aleatoria le permite replicar la seleccin aleatoria de sujetos en este anlisis.

  • Preparando los datos para el anlisisPara crear la variable de seleccin para validacin.rv.bernoulli(0.7) Esto hace que los valores a validar sean generados aleatoriamente con una distribucin Bernoulli y un parmetro de probabilidad de 0.7

  • Preparando los datos para el anlisisSlo quiere usar validar con los sujetos que podran ser usados para el modelo; es decir, los clientes previos.Sin embargo, hay 150 personas que corresponden a clientes potenciales en el archivo de datos.Para hacer los clculos slo para los clientes previos, use el botn SiMISSING(impago) = 0

  • Preparando los datos para el anlisisEsto asegura que validar slo se calcular para los sujetos sin valores perdidos en impago; es decir, para los clientes que recibieron previamente un prstamo.Aproximadamente el 70% de los clientes a los que se les haba dado un prstamos tendrn un valor de 1.Estos clientes sern usados para crear el modelo.Los clientes restantes a los que previamente se les haba dado un prstamo sern usados en la muestra de validacin

  • Corriendo el anlisis

  • Variable de criterio:Impagos anteriores (0,1)

    Variables de pronsticoAos con la empresa actualAos en la direccin actualTasa de deuda sobre ingresos (x100)Deuda de la tarjeta de crdito en miles

    Validar (1)

  • Botn Estadsticos

  • Botn Clasificar

  • Botn Guardar

  • Clasificando clientes como bajo o alto riesgo crediticioLas funciones de clasificacin son usadas para asignar personas a los grupos.Hay una funcin separada para cada grupo. Para cada sujeto, se calcula una puntuacin discriminante para cada funcin.El modelo discriminante asigna el sujeto al grupo cuya funcin de clasificacin obtuvo la puntuacin ms alta.

  • Clasificando clientes como bajo o alto riesgo crediticioLos coeficientes para Aos con la empresa actual y Aos en la direccin actual son ms pequeos para la funcin de clasificacin SI, lo que significa que los clientes que vivieron en la misma direccin y trabajaron en la misma compaa por muchos aos son menos propensos a incumplir con su pago de la deuda.De manera similar, los clientes con mayor deuda son ms propensos a fallar.

  • Clasificando clientes como bajo o alto riesgo crediticioPor ejemplo, considere el sujeto 701 y 703El sujeto 701 ha tenido el mismo empleo por 16 aos, vivido en su domicilio actual por 13 aos, y ha tenido una deuda equivalente al 10.9% de su ingreso, $540 de los cuales es de tarjeta de crdito.

  • Clasificando clientes como bajo o alto riesgo crediticioEl modelo discriminante predice que hay slo cerca de un 8% de probabilidad que la persona no pagar el prstamo, por lo que es un buen riesgo crediticio.El sujeto 703 ha tenido el mismo trabajo y vivido en la misma direccin por menos aos y tiene ms deudas, por lo que el modelo lo ve como un pobre riesgo crediticio.

  • Verificando supuestos

  • Colinealidad de las variables de pronsticoLa Matriz de correlacin intra-grupos muestra las correlaciones entre las variables de pronstico.Las correlaciones ms grandes ocurren entre Deuda de crdito en miles y las otras variables, pero es difcil decir si son lo suficientemente grandes como para preocuparse.Observe las diferencias entre la Matriz de estructura y los coeficientes estandarizados para estar seguro.

  • Correlacin de las medias y varianzas de grupo

  • Problema de heteroscedasticidadLa tabla de estadsticos de grupo revela un problema potencialmente ms serio.Para las cuatro variables de pronstico, las medias de grupo ms grandes estn asociadas con desviaciones estndar mayores.En particular, observe Tasa de deuda sobre ingresos y Deuda de la tarjeta de crdito en miles para las cuales las medias y las desviaciones estndar para el grupo SI son considerablemente mayores.En anlisis posteriores, podra considerar usar valores transformados de estas variables.

  • Homogeneidad de las matrices de covarianzaLogaritmos del determinante son medidas de la variabilidad de los grupos. Entre ms grandes los valores, los grupos tendrn mayor variabilidad.Grandes diferencias en los logaritmos de los determinantes indican grupos que tienen diferentes matrices de covarianza.

  • Homogeneidad de las matrices de covarianzaLa M de Box prueba el supuesto de igualdad de covarianzas entre los grupos.Ya que la prueba es significativa, debera requerir matrices separadas para ver si esto da resultados de clasificacin radicalmente diferentes.

  • Evaluado la contribucin de las variables de pronsticoHay varias tablas que evalan la contribucin de cada variable de pronstico al modelo, incluyendo Pruebas de igualdad de las medias de los grupos,Coeficientes estandarizados de la funcin discriminanteMatriz estructura.

  • Pruebas de igualdad de las medias de los gruposMide el potencial de cada variable de pronstico antes de crear el modelo. Cada prueba muestra los resultados de un ANOVA para la variable de pronstico usando la variable de criterio como factor.Si el p-valor es mayor a 0.10, la variable probablemente no contribuye al modelo.En este ejemplo, cada variable es significativa en el modelo discriminante.

  • Pruebas de igualdad de las medias de los gruposLambda de Wilks es otra medida del potencia de una variable. Valores ms pequeos indican que la variable es mejor al discriminar entre grupos.La tabla sugiere que Tasa de deuda sobre ingresos (x100) es la mejor, seguida por Aos con la empresa actual, Deuda en tarjeta de crdito en miles y Aos en la direccin actual

  • Coeficientes estandarizados de la funcin discriminanteLos coeficientes estandarizados le permiten comparar variables medidas en diferentes escalas.Los coeficientes con mayo valor absoluto corresponden a variables con mayor capacidad discriminante.Esta tabla le baja importancia a Tasa.. pero el orden se conserva.

  • Matriz de estructuraMuestra la correlacin de cada variable de pronstico con la funcin discriminante.El orden es el mismo que el sugerido en las pruebas de igualdad de las medias de los grupos y es diferente del mostrado en la tabla de coeficientes estandarizados.

  • Por qu la discrepancia?La discrepancia se deba a la colinealidad entre Aos con la empresa actual y Deuda de la tarjeta de crdito en miles observada en la matriz de correlacin.Ya que la matriz de estructura no se ve afectada por la colinealidad, es seguro decir que esta colinealidad ha inflado la importancia de Aos con la empresa actual y Deuda con la tarjeta de crdito en miles en la tabla de coeficientes estandarizados.Por tanto, es Tasa de deuda sobre ingresos (x100) la que mejor discrimina entre los que cumplen y los que no cumplen con la deuda.

  • Evaluando el ajuste del modeloAdems de las medidas para verificar la contribucin de las variables de pronstico a su modelo discriminante, se proveen la tabla de autovalores y la tabla de Lambda de Wils para ver qu tan bien se ajusta de manera global el modelo discriminante a los datos.

  • AutovaloresProvee informacin acerca de la eficacia relativa de cada funcin discriminante.Cuando hay dos grupos, la correlacin cannica es la medida ms til en la tabla, y es equivalente a la correlacin de Pearson entre las puntuaciones discriminantes y los grupos.

  • Lambda de WilksMide qu tan bien cada funcin separa los sujetos en los grupos. Es igual a la proporcin de la varianza total en las puntuaciones discriminantes no explicada por las diferencias entre los grupos.Valores ms pequeos indican mayor poder discriminador de la funcin.

  • Lambda de WilksEl estadstico Chi-cuadrado asociado prueba la hiptesis que las medias de las funciones enlistadas son iguales entre los grupos.El p-valor pequeo indica que la funcin discriminante hace un mejor trabajo que el azar al separar los grupos.

  • Validacin del modelo

  • Muestra de validacin inicialLa tabla de clasificacin muestra los resultados prcticos de usar el modelo discriminante.De los casos usados para crear el modelo, 94 de 124 personas que no pagaron son clasificadas correctamente. 281 de 375 cumplidos son clasificados correctamente.75.2% de los sujetos de la muestra de estimacin fueron clasificados correctamente.La clasificacin basada en los sujetos usados para crear el modelo tienden a ser muy optimista en el sentido que su tasa de clasificacin es inflada.

  • Muestra de validacin finalLa clasificacin cruzada intenta corregir esto al clasificar cada sujeto mientras se deja afuera de los clculos del modelo; sin embargo, este mtodo es generalmente todava ms optimista.La muestra de validacin final se obtiene al clasificar los clientes pasados que no fueron usados para crear el modelo.77.1% de los sujetos no seleccionados en la estimacin son clasificados correctamente por el modelo. Esto sugiere que, de manera global, su modelo es de hecho correcto en 3 de 4 veces.Los 150 sujetos desagrupados son los clientes prospectos, y los resultados simplemente dan una tabla de frecuencias del grupo al que son asignadas estas personas.

  • Especificando Matriz de covarianza de grupos separados.Ya que la M de Box es significativa, es til correr un segundo anlisis para ver si usar una matriz de covarianzas de grupos separados cambia la clasificacin

  • Los resultados de clasificacin no han cambiado mucho, por lo que probablemente no es de utilidad o valor el usar matrices de covarianzas separadas.La M de Box puede ser muy sensible a archivos grandes de datos, que es justo lo que est pasando aqu.

  • Ajustando las probabilidades previasMuestra las probabilidades previas de pertenecer a un grupo.A menos que se especifique otra cosa, se asume que un sujeto tiene la misma probabilidad de ser cumplido o incumplido.Las probabilidades previas son usadas junto con los datos para determinar las funciones de clasificacin. Al ajustar las probabilidades previas de acuerdo con los tamaos de los grupos puede mejorar la tasa de clasificacin global.

  • Ajustando las probabilidades previas

  • Ajustando las probabilidades previas

  • Ajustando las probabilidades previasLas probabilidades previas ahora estn basadas en los tamaos de los grupos.Previamente, el 75.2% de los sujetos son cumplidores, por lo que las funciones de clasificacin ahora sern ponderadas de manera ms cargadas a favor de clasificar sujetos cumplidores.La tasa global de clasificacin es ms alta para estas clasificaciones que para aquellas basadas en probabilidades previas iguales.Desafortunadamente, esto bajo el costo de clasificar mal un mayor porcentaje de incumplidores.Si necesita ser conservador en sus prstamos, entonces su meta es identificar a los incumplidores y mejor usara probabilidades iguales. Si puede ser ms agresivo en sus prstamos, entonces puede usar probabilidades desiguales.

  • Problemas que surgen del ARCuando se usa el anlisis discriminante, es posible encontrar problemas y dificultades que dan lugar a resultados imprecisos o engaosos.Se emple un tamao de muestra inadecuado. Debe ser por lo menos el doble o el triple del nmero de variables aplicadas en la ecuacin de regresin.Las variables de pronstico no se midieron adecuadamente durante el estudio, estn mal expresadas o no fueron las correctas. En sntesis, no son las que tienen un efecto directo en la variable de criterio.Multicorrelacin (Variables de pronstico muy correlacionadas.La verdadera relacin entre la variable criterio y las de pronstico es no lineal, o tiene una forma poco usual.Los datos de la variable de criterio pueden ser de escasa calidad, especialmente si las categoras fueron establecidas subjetivamente (por ejemplo: buenas/malas o cmodas/incmodas) y no objetivamente (cumplieron cuota/ no cumplieron)

  • ResumenUsando Anlisis Discriminante, ha creado un modelo que clasifica a los clientes en alto y bajo riesgo crediticio. La M de Box mostr un posible problema con la heterogeneidad de las matrices de covarianza, aunque despus de indagar un poco ms, se descubri que esto era probablemente un efecto del tamao del archivo de datos.El uso de probabilidades previas desiguales para tomar ventaja del hecho que los cumplidores son ms que los incumplidos result en una tasa de clasificacin global mayor, pero con el costo de clasificar mal ms incumplidos como cumplidos.

  • EJERCICIOS

  • Considere los siguientes grupos de consumidores. El grupo 1 (G1) realiza sus compras en shoopings y el grupo 2 (G2) en outlets. Queremos establecer las diferencias de comportamiento entre estos dos grupos en base al ingreso y al nmero de compras que realizan en el ao para poder decidir si un consumidor que tiene un ingreso de 60,000 y que realiza 25 compras por ao puede clasificarse en alguno de esto dos grupos.La siguiente tabla muestra los datos para estas variables:

  • Sheet1

    Ejemplo Numrico

    Grupo 1Grupo 2123

    ObservacionesIngresoComprasIngresoCompras

    16018.47519.62.965962.544462.86494

    285.516.852.820.83.144732.434252.85496

    364.821.664.817.23.224822.24743.14419

    461.520.843.220.4

    58723.68417.6means3.10666666675172.39448.33333333332.95469.6666666667

    6110.119.249.217.6total means2.8155555556478.3333333333

    710817.659.416demeaned-0.1466666667790.15-2.3333333333-0.0924.3333333333

    882.822.46618.40.0333333333-440.04-23.3333333333-0.126.3333333333

    9692047.416.40.1133333333-35-0.1925.66666666670.19-50.6666666667

    109320.83318.8Transpose

    1151225114-0.14666666670.03333333330.11333333330.150.04-0.19-0.09-0.10.19

    1281206314.879-44-35-2.3333333333-23.333333333325.666666666724.333333333326.3333333333-50.6666666667

    Medias79.47520.26757.40017.633(n1-1)S10.0354666667-17.02(n2-1)S20.0602-6.16(n3-1)S30.0542-14.45

    Varianzas352.6444.082200.7054.464-17.029402-6.161208.6666666667-14.453852.6666666667

    Covarianzas-10.833-2.373

    media x179.475media x257.400W0.1498666667-37.6319.24455290970.0500695455

    20.26717.633-37.6314463.33333333330.05006954550.0001994089

    S1352.644-10.833means-totmeans0.291111111138.6666666667-0.4255555556-300.1344444444-8.6666666667

    -10.8334.082

    0.2911111111-0.42555555560.1344444444

    S2200.705-2.37338.6666666667-30-8.6666666667

    -2.3734.464

    Bi0.08474567911.25629629630.181097530912.76666666670.0180753086-1.1651851852

    11.25629629631495.111111111112.7666666667900-1.165185185275.1111111111

    S y S^-1276.675-6.6030.0040.006

    -6.6034.2730.0060.243B/30.283918518522.8577777778B0.851755555668.5733333333

    22.85777777782470.222222222268.57333333337410.6666666667

    media X1 - media X222.075

    2.633W^-1B19.82509048641690.7118531588

    0.05632114464.9111883177

    (media X1 - media X2)'22.0752.63395.2228267904lambda^2

    alphahat0.0980.76897.364752793224.736278804lambda

    2.1419260028

    media y123.3592.1419260028

    media y219.171

    -24.736278804611.8834890712

    mhat21.265603.3157850624.5624873549

    -4.83

    supongamos X_060.00025.000-19.739-0.1737914491

    -85.7599431818-0.0868957246

    regla de clasificacin25.083>21.2650.05632-19.7144486957

    350.0434782609-49.2987661589

    X_0 pertenece a pi_1175.0217391304-24.6493830795

    19.907

    1750.50.0249777778-6.27166666671750.03043213634.998

    -6.27166666672410.55555555560.510.6512477176353.515625

    4.782560884

    1.2352777778107.7361111111270.0416666667-0.215439116

    16.432944552584.917629332

    Sheet2

    Sheet3

  • PiscinasSupongamos que la Compaa Piscinas Amir ha reunido datos de ingreso y tamao de terrenos de grupos de propietarios de piscina y no propietarios, quienes viven en el sureste de Pennsilvania. Adems, hay datos disponibles para cada grupo sobre actitudes hacia los baos de sol, en escala de 0 (detestar los baos de sol hasta 10 = extremadamente aficionado a tomar baos de sol.)

  • Obtener un anlisis discriminanteProbar si el modelo el bueno para pronosticarValidar el modelo con dos mtodos de validacinA qu grupo pertenece una persona con las siguientes caractersticas:Ingreso anual: $12,000Tamao de terreno: 42,000 pie2Actitud hacia los baos de sol: 8

  • Calidad de profesorSe dice que en la Universidad de Texas no existen maestros intermedios, es decir, o son buenos o son malos; por lo que se analizaron 20 maestros con base en su capacidad docente (metodologa de enseanza, exmenes representativos, calificaciones justas), experiencia en el rea de la materia y conocimiento en la misma; todo esto en una escala del 1-5 donde el uno significa bueno y el cinco malo, para ver si realmente se segmentaba de esta forma.Obtener el modelo discriminanteProbar si el modelo es bueno para segmentar

  • Preguntas

  • D un ejemplo real o hipottico en el cual el anlisis discriminatorio pudiera ser til en el anlisis de los datos de mercadotecnia.Cules variables de pronstico piensa que pudieran ser tiles para separar a los amantes de las caminatas y a los que no practican este deporte? Escoja dos variables cualesquiera de stas y construya un diagrama de dispersin hipottico (utilice su imaginacin) en un espacio bidimensional. Incluya una lnea discriminatoria.Explique qu se entiende por cada uno de los siguientes conceptos: funcin discriminatoria, centroide, clasificacin errnea.

  • En la siguiente ilustracin grfica de un anlisis discriminante de dos grupos:Cules lneas describen las dos dimensiones en que los miembros del grupo han sido medidos?A lo largo de cul lnea est maximizada la variabilidad entre grupos, dividida por la variabilidad dentro de grupo?Cul lnea representa el eje discriminante?Suponiendo que queremos clasificar a los consumidores en los grupos respectivos de modo que haya un mnimo de costo conexo con el error de clasificar a una persona en el grupo B cuando en realidad pertenece al grupo A, Qu lnea quisiramos utilizar como base para la clasificacin?

  • Cuando se realiza un anlisis discriminante en dos dimensiones, una lnea discriminante sirve de lmite al hacer las clasificaciones. Qu forma de divisor geomtrico habr en un espacio de dos variables? En un espacio de tres variables? Y en un espacio de cuatro variables?Despus de usar los datos de 100 personas para construir una funcin discriminante, un investigador prueba la funcin al determinar cuntos de esos 100 sujetos estn clasificados correctamente. Qu debilidad conlleva este procedimiento?