Download pdf - CLASIFICACION SUPERVISADA - CICIA — Facultad de ...cicia.uprrp.edu/publicaciones/Papers/ClasificacionSupervisadaAplic... · cuestiones tales como ingresos, edad, ... La aplicación

Clasificación Supervisada José Carlos Vega Vilca, Ph.D.

0

UNIVERSIDAD DE PUERTO RICO RECINTO DE RIO PIEDRAS

FACULTAD DE ADMINISTRACION DE EMPRESAS Instituto de Estadística y Sistemas Computadorizados de Información

CLASIFICACION SUPERVISADA Aplicado a casos de

Administración de Empresas Marzo - 2011

Preparado por: José Carlos Vega Vilca, Ph.D.

[email protected]


1

ANALISIS DISCRIMINANTE, APLICADO A LA

ADMINISTRACION DE EMPRESAS

Introducción.- En negocios hay muchas situaciones donde sujetos en estudio deben ser separados en dos

o más grupos bien definidos. Estos sujetos pueden ser personas, ciudades, universidades,

países u otros. El propósito del Análisis Discriminante es construir un clasificador, o

función clasificadora basada en datos multivariados, pertenecientes a grupos bien

conocidos por el investigador, para ser usado en clasificación de nuevos sujetos y estos

puedan ser localizados en alguno de estos grupos en estudio.

En análisis de datos univariados los sujetos en estudio están caracterizados por sólo una

variable, mientras que en análisis multivariado cada sujeto en estudio es caracterizado por

un conjunto de p-variables dispuestos en un vector 1 2( , , , ) 'px x x=x L y por lo tanto una

muestra de n sujetos, definen una matriz de datos X de orden n×p.

En negocios se espera que el análisis discriminante responda a inquietudes propias de la

clasificación. Según las características multivariadas de nuevos sujetos (clientes) se

podrán dar respuestas a interrogantes tales como, ¿Comprará, este cliente nuestro

producto, o no? ¿Devolverá, este cliente el crédito, o no? ¿Se adaptará, este candidato al

puesto de trabajo, o no?

La aplicación práctica del análisis discriminante se ilustra mediante el siguiente caso:

Cuando un banco concede un préstamo personal a un cliente se enfrenta a la doble

posibilidad de que sea reintegrado o de que no lo sea. En este último caso el préstamo

será finalmente clasificado como fallido. Así pues, se pueden considerar dos grupos de

clientes: clientes cumplidores y clientes fallidos. Como es obvio, si el banco conociera de

antemano que una persona va a resultar fallida no le concedería el préstamo de ninguna

manera. El banco, sin embargo, puede utilizar la información existente sobre los

préstamos concedidos en el pasado y su destino de cumplimiento, para otorgar préstamos


2

futuros de forma que se evite o, al menos se reduzca la posibilidad de conceder préstamos

que después puedan resultar fallidos. Así, en los archivos del banco seguramente existirá

información de las características de las personas a las que se ha concedido un préstamo,

ya que el cliente, cuando realiza una petición de préstamo, debe facilitar datos acerca de

cuestiones tales como ingresos, edad, sexo, situación familiar, antigüedad en su puesto de

trabajo, gastos, números de dependientes, etc. Es muy posible que los clientes

cumplidores tengan unas características distintas a la de los clientes fallidos. Utilizando

estas características, registradas en el pasado, se trata de establecer una función

clasificadora, para determinar si se conceden o no los préstamos a futuros solicitantes.

El problema general en clasificación

Se tiene G de grupos. Cada grupo g∈{1, 2, …, G} está formado por un conjunto de Ng

sujetos. Cada sujeto, que sólo puede pertenecer a un grupo, está caracterizado por un

conjunto de p-variables dispuestos en un vector 1 2( , , , ) 'px x x=x L .

Problema: Se tiene un nuevo sujeto caracterizado por las p-variables consideradas. ¿En

cuál de los grupos g∈{1, 2, …, G} debe ser clasificado.

Respuesta: El nuevo sujeto debe ser clasificado en el grupo donde sus características

anotadas en las p-variables consideradas, son similares al grupo considerado.

Estrategia: El total de sujetos en los G grupos: 1 2 GN N N+ + +L son usados para

construir la función clasificadora, también llamado clasificador. Los valores

de las p-variables consideradas son reemplazados en el clasificador y éste dará

la probabilidad de pertenecer a cada uno de los grupos. El nuevo sujeto será

clasificado al grupo donde la probabilidad de pertenencia sea el valor más

grande.


3

Análisis Discriminante Lineal (LDA) El fundamento del Análisis Discriminante Lineal (LDA, por sus siglas en inglés) está

basado en la Teoría de Decisión que necesita conocer la probabilidad posterior

P(y=g/x=x0) es decir la probabilidad de clasificar algún vector de observaciones x0, en un

grupo g∈{1, 2, …, G}, con probabilidades a priori P(y=g) = Πg siendo 11

=Π∑ =

G

g g . Se

supone que en cada grupo g, la densidad fg(x) es normal multivariada con vector de

medias μg y matriz de covarianzas Σ, común para todas las clases.

{ })()(exp||)2(

1)( 121

2/12/ ggpgf μxμxx −Σ′−−Σ

= −

π (1)

La aplicación del Teorema de Bayes es necesaria para calcular la probabilidad posterior

de clasificación

∑ =Π

Π=== G

g gg

gg

f

fgyP

1 0

00

)(

)()/(

x

xxx g = 1, …, G (2)

La clasificación del vector observación x0 está dado por la siguiente regla:

)/*(maxarg* 0},1{0 xxx ==⇔∈ ∈ gyPg Gg L (3)

En la expresión (2) se puede observar que el denominador es constante y por lo tanto la

probabilidad posterior es una cantidad directamente proporcional a ggf Π)( 0x

)/( 0xx == gyP ∝ ggf Π)( 0x

∝ { })()(exp 01

021

gg μxμx −Σ′−− − Πg

∝ { }ggg μμμx 1211

0exp −− Σ′−Σ′ Πg

∝ { }gggg Π+Σ′−Σ′ −− logexp 1211

0 μμμx


4

∝ { } { }0 0exp exp ( )g g gc δ′ + =x β x

∝ )( 0xgδ (4)

Por el resultado obtenido en (4), una regla de clasificación equivalente a la presentada en

(3), es la siguiente:

{ })(maxarg* 0*},1{0 xx gGgg δL∈⇔∈ (5)

En general, la expresión ( )g g gcδ ′= +x x β , con 1g g

−= Σβ μ y 112 logg g g gc −= − Σ + Πμ μ ,

es llamada función discriminante lineal. Donde ),,,( 21 ′= pxxx Lx es un vector aleatorio,

1 2( , , , )g g g pgβ β β ′=β L es un vector de coeficientes y cg es un término constante. Por

tanto la función discriminante lineal para cada grupo g, queda expresada de la siguiente

forma:

1 1 2 2( )g g g g pg pc x x xδ β β β= + + + +x L ; g = 1, 2, …, G (6)

Aplicación Para la aplicación, se consideran los datos de Albright et.al. (2000). Se ha confeccionado

un programa en lenguaje R que hace todos los cálculos

1. Aplicación en dos grupos: Una empresa tiene el registro de 84 clientes, todos ellos

dedicado al mundo de los negocios. Algunos de ellos están suscritos a la revista Wall

Street Journal y los otros no

Grupos:

• Grupo 1: NO.- Clientes no suscritos a Wall Street Journal

• Grupo 2: SI.- Clientes suscritos a Wall Street Journal


5

Variables discriminantes:

• Ingreso: ingreso anual del cliente

• Inversión: Cantidad total invertido en bonos y acciones

Fig. No.1, GRAFICO DE PUNTOS: Representación de clientes de los dos grupos

Tabla No. 1: PROMEDIOS de cada variable

Grupos Ingreso promedio Inversión promedio

NO: no suscritos 66042.11 24952.63

SI: suscritos 80485.19 53000.00

Tabla No. 2: MATRIZ DE VARIANZAS-COVARIANZAS, COMUN

Ingreso Inversión

Ingreso 14812033021 6123163684

Inversión 6123163684 7663422105


6

Tabla No.3: MATRIZ DE CLASIFICACION

No-suscritos Si-suscritos Total

No-suscritos 52 5 57

Si-suscritos 2 25 27

84

FUNCION DISCRIMINANTE

CLASIFICADOR: ECUACION DE LA RECTA

Fig. No. 2, REPRESENTACION GRAFICA DEL CLASIFICADOR

( ) 0.00006586* 0.0003527348* 8.92316D Ingreso Inversión= − +x

0.1867125* 25297.08Inversión Ingreso= +

0.00006586* 0.0003527348* 8.92316 0Ingreso Inversion− + =

clasificador


7

PROCEDIMIENTO PARA CLASIFICAR UN NUEVO CLIENTE.

Para clasificar un nuevo cliente, como suscrito o no-suscrito a Wall Street Journal, con

un ingreso anual de 60000 dólares y 10000 dólares de inversión. Este cliente es

representado por el vector:

En esta aplicación es posible clasificar al nuevo cliente usando cualquiera de las tres

formas siguientes:

Ubicar el vector en el gráfico de puntos

El punto 0x = (60000, 10000)’ se ubica en el plano representado en la Fig. No. 2. Se

concluye que el cliente debe ser clasificado como perteneciente al grupo de los no-

suscritos.

Uso de la función discriminante

Como el valor de la función discriminante es mayor que cero, el nuevo cliente debe ser

clasificado en el grupo de los no-suscritos a la revista. En caso contrario deberá ser

clasificado en el grupo de los suscritos a la revista.

Uso de la probabilidad posterior

La probabilidad de que el nuevo cliente sea clasificado como perteneciente al grupo de

los suscritos

La probabilidad de que el nuevo cliente sea clasificado como perteneciente al grupo de

los no-suscritos

0 (60000, 10000) '=x

0( ) 0.00006586* 0.0003527348* 8.92316D = − +x 60000 10000

0( ) 9.347412 0D =x >

( ) [ ] 05-8.718318e1)347412.9exp(

11)(exp

1|0

02 =+

=+

=x

xD

P π

( ) ( )[ ] 0.9999128)347412.9exp(1

1exp1

1|0

01 =−+

=−+

=x

xD

P π


8

Se observa que la probabilidad de pertenecer al grupo de los no-suscritos es mayor que la

probabilidad de pertenecer al grupo de los suscritos. Por lo tanto el nuevo cliente será

clasificado como perteneciente al grupo de los no-suscritos.

2. Aplicación en tres grupos: Una compañía especializada en textos universitarios, es

representante de un libro de computación con el cual ha alcanzado sus mejores

ventas. La compañía tiene registrado a 119 universidades en tres grupos:

Grupos:

• Grupo 1: NUNCA.- Universidades que nunca le compraron el libro

• Grupo 2: YA NO.- Universidades que ya no le compran el libro

• Grupo 3: SIGUEN.- Universidades que siguen comprando el libro


• X1: Total de alumnos en la universidad

• X2: Promedio SAT

• X3: Porcentaje de cursos que requieren asistencia

• X4: Número de PC disponibles en la universidad

• X5: Porcentaje de estudiantes con PC propia

• X6: Promedio anual de estudiantes matriculados

Tabla No. 4: PROMEDIOS de cada variable

Grupo X1 X2 X3 X4 X5 X6

NUNCA 14799.05 1134.28 80.60 148.15 54.93 14997.50

YA NO 14888.46 921.73 59.88 101.62 43.95 9878.38

SIGUEN 19575.60 950.14 59.48 153.29 51.99 9680.95


9

Tabla No. 5: MATRIZ DE VARIANZAS-COVARIANZAS, COMUN

X1 X2 X3 X4 X5 X6

X1 503920787.2 -6095139.5 -414582.4 1.40e+06 -689418.9 -229036851

X2 -6095139.5 1016284.4 28703.1 8.29e+04 58951.3 13996126

X3 -414582.4 28703.1 4432.8 1.93e+01 2743.5 1045239

X4 1403197.0 82864.9 19.3 8.30e+04 3038.1 3234841

X5 -689418.9 58951.3 2743.5 3.04e+03 11217.5 1787913

X6 -229036851.2 13996125.6 1045238.9 3.23e+06 1787912.9 1117937215

Tabla No. 6: MATRIZ DE CLASIFICACION

NUNCA YA_NO SIGUEN TOTAL

NUNCA 39 0 1 40

YA_NO 0 34 3 37

SIGUEN 0 3 39 42

119

Tabla No. 7: FUNCION DISCRIMINANTE

Variables 12 ( )D x 13 ( )D x 23( )D x

X1 12a = 0.0002646156 13a = -0.0007530045 23a = -0.0010176201

X2 12b = 0.0103142274 13b = 0.0145923633 23b = 0.0042781359

X3 12c = 0.5711362115 13c = 0.5000922141 23c = -0.0710439974

X4 12d = 0.0583431022 13d = -0.0060218883 23d = -0.0643649905

X5 12e = -0.0544522169 13e = -0.2357332707 23e = -0.1812810538

X6 12f = -0.0001594750 13f = 0.0001415569 23f = 0.0003010319

constante 12k = -57.25612 13k = -25.52921 23k = 31.72691


10

El clasificador consta de tres funciones:

12 ( )D x : clasifica en los grupos NUNCA compran y YA_NO compran

13 ( )D x : clasifica en los grupos NUNCA compran y SIGUEN comprando

23( )D x : clasifica en los grupos YA_NO compran y SIGUEN comprando

La Tabla No. 7, contiene los coeficientes de cada una de las tres funciones

12 12 1 12 2 12 3 12 4 12 5 12 6 12( )D a X b X c X d X e X f X k= + + + + + +x



PROCEDIMIENTO PARA CLASIFICAR UNA NUEVA UNIVERSIDAD

Para clasificar una nueva universidad ( 0x ), como perteneciente a uno de los grupos:

NUNCA, YA_NO, SIGUEN, con base en la información de las características en estudio:

0 (17455,1068, 79.3,154, 46.5,17400) '=x

En esta aplicación es posible clasificar a la nueva universidad usando cualquiera de las

dos formas siguientes:

Usar la función discriminante

Según las dos primeras funciones, la nueva universidad debe ser clasificada en el grupo 1,

es decir en el grupo de las universidades que NUNCA compraron el libro

Usar la probabilidad posterior

La probabilidad de que la nueva universidad sea clasificada como perteneciente al grupo

de los que SIGUEN comprando el libro:

12 0( ) 7.347388D =x

13 0( ) 7.143177D =x

23 0( ) 0.2042108D = −x


11


de los que YA_NO compran el libro:


de los que NUNCA compraron el libro:

Se observa que la probabilidad de pertenecer al grupo de los que NUNCA compraron el

libro es mayor que la probabilidad de pertenecer a los otros dos grupos. Por lo tanto, la

nueva universidad será clasificada como perteneciente al grupo de los que NUNCA

compraron el libro.

( ) [ ] [ ] 0007891055.01)(exp)(exp

1|023013

03 =++

=xx

xDD

P π

( ) [ ] [ ] 0006433502.0)(exp1)(exp

1|023012

02 =−++

=xx

xDD

P π

( ) [ ] [ ] 0.9985675xx

x =−+−+

=)(exp)(exp1

1|013012

01 DDP π


12

REGRESION LOGISTICA, APLICADO A LA

ADMINISTRACION DE EMPRESAS

Introducción En Regresión Logística, cada fila de la matriz de predictoras corresponde a las

observaciones del vector aleatorio p-dimensional )'( 21 pxxx L=x , las entradas del

vector de respuestas Y, corresponde a la observación de la variable respuesta y, la cual

representa una categoría, codificada dentro del conjunto { }G,,2,1 L , que se llamará

grupo o clase, para efectos de clasificación supervisada. Si la variable respuesta es

categórica, con dos clases (G = 2), se tiene el modelo de regresión logística dicotómico,

definido de la siguiente manera:

pp xxxcyP

yP βββ ++++=⎟⎟⎠

⎞⎜⎜⎝

⎛=−

=L2211)1(1

)1(log

Una forma equivalente de representar el modelo anterior, es el siguiente:

)(exp1)(exp

)1(2211

2211

pp

pp

xxxcxxxc

yPβββ

βββ+++++

++++==

L

L

Si la variable respuesta es categórica, con más de dos clases, el modelo de regresión

logística es generalizado a Regresión Logística Nominal o Regresión Logística Ordinal.

Regresión Logística Ordinal

Este modelo es usado cuando hay un obvio orden natural en las categorías de la variable

respuesta. Hay varios modelos diferentes en regresión logística ordinal; aquí será usado el

llamado modelo de chances proporcionales. La probabilidad de clasificar una

observación en una de las G clases, según este modelo, es obtenido de:


13

)(exp1

)(exp)(

2211

2211

ppg

ppg

xxxcxxxc

gyPβββ

βββ+++++

++++=≤

L

L

1,,2,1 −= Gg L

Se debe notar que P(y ≤ G) = 1. Además el modelo de regresión logística ordinal también

puede ser presentado de la siguiente forma:

ppg xxxcgyPgyP βββ ++++=⎟⎟⎠

⎞⎜⎜⎝

⎛>≤

L2211)()(log

1,,2,1 −= Gg L

Regresión Logística Nominal

Este modelo es usado cuando no hay un orden natural en las categorías de la variable

respuesta. Aquí una categoría es elegida arbitrariamente como la categoría de referencia.

Supongamos que ésta es la primera categoría, entonces la probabilidad de clasificar una

observación en una de las G clases es obtenida del modelo:

pgpggg xxxcyP

gyP βββ ++++=⎟⎟⎠

⎞⎜⎜⎝

⎛==

L2211)1()(log

Gg ,,3,2 L=

Predicción en regresión logística

Una vez que se han estimado los parámetros de la regresión logística, ordinal o nominal,

se puede hacer la predicción de una observación )'( 210 pxxx L=x , lo cual consiste en la

clasificación de dicha observación en una de las G clases. Para lograr este objetivo se

estiman las probabilidades de pertenecer a cada una de las G clases y se aplica la

siguiente regla:

∈0x clase g* ⇔ g* = arg max P(y = g)

g En palabras simples, después de calcular la probabilidad de pertenecer a cada uno de los

G grupos, la nueva observación 0x , es clasificada al grupo donde la probabilidad de

pertenencia es la mayor.


14

Odds Ratio (OR)

Sea Y una variable binomial puntual, con probabilidad de éxito p, es decir

( )P Y éxito p= =

Si la variable Y depende de una variable dicotómica X, con valores posibles: 0 y 1, el

odds ratio se define mediante la siguiente expresión:

Odds Ratio:

( | 1)( | 1)

( | 0)( | 0)

P Y éxito XP Y fracaso XOR P Y éxito XP Y fracaso X

= == === =

= =

= / | 1/ | 0

p q Xp q X

==

= ( 1)( 0)

odds Xodds X

==

Ejemplo:

Sean dos juegos, la probabilidad de ganar en el juego A (X = 1), es 1/2; la probabilidad de

ganar en el juego B (X = 0), es 1/6. El odds ratio se calcula de la siguiente manera

OR = / | 1/ | 0

p q Xp q X

==

= ( )( )

odds X juego Aodds X juego B

==

=

1/ 21/ 21/ 65 / 6

= 5

Interpretación: el odds para el juego A es 5 veces el odds del juego B; es decir, la

oportunidad de ganar en el juego A es 5 veces la oportunidad de ganar en el juego B.

Regresión logística simple

Sea Y una variable binomial puntual, donde se cumple: ( )P Y éxito p= = y

( ) 1P Y fracaso p q= = − = .

Sea X una variable aleatoria o no, continua o discreta. El modelo de regresión expresa el

logaritmo del odds para un valor de X.

0 1ln |1

p X x xp

β β⎛ ⎞

= = +⎜ ⎟−⎝ ⎠

En forma simplificada:


15

0 1ln1

p xp

β β⎛ ⎞

= +⎜ ⎟−⎝ ⎠

En otra forma equivalente:

0 1

0 1

exp( )1 exp( )

xpx

β ββ β+

=+ +

=> 0 1

11 exp{ ( )}

pxβ β

=+ − +

En matemática aplicada se denomina función logística a la siguiente función:

1( )1 exp( )

f zz

=+ −

Gráfica de la función logística:

OR cuando la variable X, puede tomar sólo valores: 0 y 1

Para X = 1 => 0 1ln | 11

p Xp

β β⎛ ⎞

= = +⎜ ⎟−⎝ ⎠

Para X = 0 => 0ln | 01

p Xp

β⎛ ⎞

= =⎜ ⎟−⎝ ⎠


16

Por lo tanto: 1ln | 1 ln | 01 1

p pX Xp p

β⎛ ⎞ ⎛ ⎞

= − = =⎜ ⎟ ⎜ ⎟− −⎝ ⎠ ⎝ ⎠

1/ | 1ln/ | 0

p q Xp q X

β⎡ ⎤=

=⎢ ⎥=⎣ ⎦

1/ | 1 exp( )/ | 0

p q Xp q X

β==

=

1( 1) exp( )( 0)

odds XORodds X

β== =

=

Interpretación:

OR = 1 => 1 0β = : Y es independiente de la variable X

OR ≠ 1 => 1 0β ≠ : Y es dependiente de la variable X

Ejemplo 1:

En un estudio con los clientes de un banco, se ha investigado si el cliente, si o no, tiene

como tarjeta de crédito principal la ofrecida por del banco y si el cliente, si o no, tiene

ahorros en promedio por más de 500 dólares. El estudio busca determinar la mayor

información

Usa la tarjeta de crédito del

banco (Y = 1)

No usa la tarjeta de crédito del banco

(Y = 0) Tiene ahorros por más

de $500 (X = 1) 120 50

No tiene ahorros por más de $500 (X = 0) 60 85

Total 180 135


17

Una análisis de la tabla de contingencia de los datos, arroja un cálculo de la prueba chi-

cuadrado = 27.262 y un p-value < 0.01, con lo que se puede concluir que dichas variables

si están asociadas. Un análisis de regresión logística determina el valor OR = 3.40, lo que

indica que si se comparan los grupos de clientes con ahorros de más de $500 y los

clientes con menos de $500; la oportunidad de encontrar a un cliente con tarjeta de

crédito principal del banco, en el primer grupo es 3.40 veces la oportunidad de encontrar

a un cliente con tarjeta de crédito principal del banco, en el segundo grupo. Odds 95% CI Predictor Coef SE Coef Z P Ratio Lower Upper Constant -0.348307 0.168616 -2.07 0.039 x 1.22378 0.238253 5.14 0.000 3.40 2.13 5.42

Ejemplo 2:

En un estudio de la efectividad de “cupones de oferta” para comprar un producto a precio

reducido. Un total de 1000 hogares fueron seleccionados para el estudio; a cada hogar se

le envió por correo un “cupón de oferta”. Cada cupón puede reducir el precio del

producto en 5, 10, 15, 20 ó 30 dólares

Valor del cupón de oferta, distribuido

Número de hogares, donde se distribuyó el

cupón de oferta

Número de cupones que fueron utilizados

5 200 30

10 200 55

15 200 70

20 200 100

30 200 137 Odds 95% CI Predictor Coef SE Coef Z P Ratio Lower Upper Constant -2.04435 0.160977 -12.70 0.000 oferta 0.096834 0.008549 11.33 0.000 1.10 1.08 1.12

Cuando el cupón de oferta se incrementa en un dólar, la posibilidad de comprar

utilizando el cupón de oferta se incrementa un 10%.


18

La siguiente gráfica muestra que la línea de regresión logística estimada pasa muy cerca

de los valores observados de proporción de cupones que fueron utilizados la para la

compra del producto promocionado.

La siguiente tabla presenta la proporción observada de cupones que fueron utilizados para

la compra del producto promocionado y la proporción estimada de cupones utilizados

mediante la regresión logística.

Valor del cupón de oferta, distribuido

Número de cupones que fueron utilizados

Proporción observada de

cupones utilizados

Proporción estimada de

cupones utilizados 5 30 0.150 0.1736

10 55 0.275 0.2543

15 70 0.350 0.3562

20 100 0.500 0.4731

30 137 0.685 0.7028


19

Ejemplo 3

Clasificación en dos grupos: Una empresa tiene el registro de 84 clientes, todos ellos



Grupos:





• Inversión: Cantidad total invertido en bonos y accione Odds 95% CI Predictor Coef SE Coef Z P Ratio Lower Upper Constant 7.93044 3.10005 2.56 0.011 Ingreso 0.0000920 0.0000530 1.73 0.083 1.00 1.00 1.00 Inversión -0.0003518 0.0000961 -3.66 0.000 1.00 1.00 1.00

Función Logística

Logit(p) = 7.93044 + 0.0000920 Ingreso – 0.0003518 Inversión

MATRIZ DE CLASIFICACION




84

La tabla anterior muestra que la función logística tiene buen poder de clasificación, ya

que de 57 clientes no suscritos, sólo 3 fueron mal clasificados y de 27 clientes que

suscritos, sólo 4 fueron mal clasificados. En total, la función logística cometió 7 malas

clasificaciones.


20


Para clasificar un nuevo cliente, como suscrito o no-suscrito a Wall Street Journal, con

un ingreso anual de 60000 dólares y 10000 dólares de inversión. Este cliente es

representado por el vector:

En esta aplicación es posible clasificar al nuevo cliente, reemplazando sus datos en la

función logística

Logit(p) = 7.93044 + 0.0000920×60000 – 0.0003518×10000

Logit(p) = 9.93244

exp(9.93244)( 1) ( ) 0.99995141 exp(9.93244)

p P Y P No estar suscrito= = = = =+

Por lo tanto:

( 0) ( ) 1 0.0000486q P Y P Estar suscrito p= = = = − =

El nuevo cliente debe ser clasificado como “no sucrito” a la revista.

Ejemplo 4:

Clasificación en tres grupos: Una compañía especializada en textos universitarios, es

representante de un libro de computación con el cual ha alcanzado sus mejores ventas. La

compañía tiene registrado a 119 universidades en tres grupos:

Grupos: variable nominal











0 (60000, 10000) '=x


21

La variable grupo es una variable nominal (no hay un orden establecido), por lo que se

debe utilizar el modelo de regresión nominal, presentado a continuación: Odds 95% CI Predictor Coef SE Coef Z P Ratio Lower Upper Logit 1: (3/1) Constant 21.0827 13.6696 1.54 0.123 X1 0.0010158 0.0004107 2.47 0.013 1.00 1.00 1.00 X2 -0.0106481 0.0131094 -0.81 0.417 0.99 0.96 1.02 X3 -0.4794490 0.2103260 -2.28 0.023 0.62 0.41 0.93 X4 0.0039790 0.0399416 0.10 0.921 1.00 0.93 1.09 X5 0.0952364 0.1315610 0.72 0.469 1.10 0.85 1.42 X6 0.0000135 0.0003782 0.04 0.972 1.00 1.00 1.00 Logit 2: (2/1) Constant 58.1784 16.6472 3.49 0.000 X1 -0.0001740 0.0003634 -0.48 0.632 1.00 1.00 1.00 X2 -0.0067755 0.0126433 -0.54 0.592 0.99 0.97 1.02 X3 -0.5649450 0.2176050 -2.60 0.009 0.57 0.37 0.87 X4 -0.0737406 0.0438034 -1.68 0.092 0.93 0.85 1.01 X5 -0.0586858 0.1213370 -0.48 0.629 0.94 0.74 1.20 X6 0.0002232 0.0003074 0.73 0.468 1.00 1.00 1.00

Sean :

31 1 2 3 4 5 621.0827 0.00102 0.01065 0.47945 0.00398 0.09524 0.00001A X X X X X X= + − − + + +

21 1 2 3 4 5 658.1784 0.00017 0.00678 0.56495 0.07374 0.05869 0.00022A X X X X X X= − − − − − +

31 31( 3) ( 3)ln exp( )( 1) ( 1)

P Y P YA AP Y P Y

⎛ ⎞= == ⇒ =⎜ ⎟= =⎝ ⎠

21 21( 2) ( 2)ln exp( )( 1) ( 1)

P Y P YA AP Y P Y

⎛ ⎞= == ⇒ =⎜ ⎟= =⎝ ⎠

De las expresiones anteriores se deduce lo siguiente:

21 31

1( 1)1 exp( ) exp( )

P YA A

= =+ +

21( 2) exp( ) ( 1)P Y A P Y= = × =

31( 3) exp( ) ( 1)P Y A P Y= = × =


22

MATRIZ DE CLASIFICACION


NUNCA 39 0 1 40

YA_NO 0 34 3 37

SIGUEN 0 2 40 42

119

La tabla anterior muestra que la función logística tiene buen poder de clasificación, ya

que de las 40 universidades que “nunca” compran el libro, sólo 1 fue mal clasificada; de

las 37 universidades que “ya no” compran el libro, sólo 3 fueron mal clasificadas y de las

42 universidades que “siguen” comprando el libro, sólo 2 fueron mal clasificados. En

total, la función logística cometió 6 malas clasificaciones.



“nunca”, “ya no”, “siguen”, con base en la información de las características en estudio:

0 (17455,1068, 79.3,154, 46.5,17400) '=x

En esta aplicación es posible clasificar al nuevo cliente, reemplazando sus datos en la

función logística, teniendo presente los siguientes pasos:

1) Calcular 31A = -5.309425 y 21A = -7.121744

2) Calcular ( 1)P Y =

21 31

1( 1)1 exp( ) exp( )

P YA A

= =+ +

= 0.9942808

3) Calcular ( 2)P Y = y ( 2)P Y =

21( 2) exp( ) 0.9942808P Y A= = × = 0.00080274

31( 3) exp( ) 0.9942808P Y A= = × = 0.00491649

La nueva universidad debe ser clasificada como “nunca” comprarán el libro.


23

LOS K-VECINOS MÁS CERCANOS (K-NN)

APLICADOS A LA ADMINISTRACION DE EMPRESAS

Introducción El clasificador K-NN (K-Nearest Neighbour), así como el análisis discriminante lineal y

la regresión logística, necesita que cada fila de la matriz de predictoras, denotada por X

de orden n×p corresponda a las observaciones del vector aleatorio p-dimensional

)'( 21 pxxx L=x y las entradas del vector de respuestas Y de orden n, corresponda a la

observación de la variable respuesta que representa una categoría, codificada dentro del

conjunto { }G,,2,1 L , que se llamará grupo o clase, para efectos de clasificación

supervisada.

Objetivo

El clasificador K-NN tiene como objetivo clasificar un nuevo elemento denotado por 0x ,

p-dimensional, como perteneciente a uno de los grupos { }G,,2,1 L . El nuevo elemento

se clasificará en la clase más frecuente a la que pertenecen sus K vecinos más cercanos

basado en la distancia más cercana. La distancia que se utiliza es la distancia euclidiana.

Distancia euclidiana

La versión más común de la distancia euclidiana es para calcular la distancia entre dos

puntos en el plano. En la siguiente figura están representados en el plano los puntos A y

B, de coordenadas 1 1( , )x y y 2 2( , )x y , respectivamente, que dan origen a un tercer punto

llamado C y los tres puntos definen un triángulo rectángulo. La distancia d entre los

puntos A y B se define mediante la aplicación del “Teorema de Pitágoras”

2 22 1 2 1( ) ( )d x x y y= − + −


24

La generalización de la distancia euclidiana es la distancia entre dos puntos en el espacio

p-dimensional. Sean dos puntos 1 2( , , , )pP x x x= L y 1 2( , , , )pQ y y y= L en el espacio p-

dimensional, la distancia euclidiana entre estos dos puntos se define de la siguiente

manera:

2 2 21 1 2 2( ) ( ) ( )p pd y x y x y x= − + − + + −L

Una función escrita en lenguaje R, que calcula la distancia entre dos puntos en el espacio

p-dimensional, puede ser fácilmente confeccionada:

distancia=function(P,Q) { dif=Q-P dist=sqrt(crossprod(dif)) return(dist) }

Ejemplo:

Hallar la distancia entre los puntos: P(5, 7) y Q(9,10)

Usando la fórmula de distancia se tiene:

2 2(9 5) (10 7) 25 5d = − + − = =


25

Usando la función en R, también se logra el mismo resultado:

P=c(5,7) Q=c(9,10) distancia(P,Q) [1] 5

Ejemplo:

Hallar la distancia entre los puntos P(5, 10, 3, 8, 9) y Q(11, 2, 7, 15, 3)

Usando la fórmula de distancia se tiene:

2 2 2 2 2(11 5) (2 10) (7 3) (15 8) (3 9) 201 14.18d = − + − + − + − + − = =

Usando la función en R, también se logra el mismo resultado:

P=c(5,10,3,8,9) Q=c(11,2,7,15,3) distancia(P,Q) [1] 14.17745

Algoritmo K-NN básico

La base de datos necesaria para la aplicación del clasificador K-NN es la matriz de

predictoras X de orden n p× , donde cada fila ix , para 1, ,i n= L de esta matriz es un

vector de orden p, y el vector de respuestas Y de orden n, que contiene las categorías o

grupos al que pertenecen cada fila de la matriz X . Dado un nuevo elemento, representado

por el vector 0 01 02 0( , , , )px x x=x L , el problema consiste en determinar el grupo donde

debe ser clasificado en el nuevo elemento.

El algoritmo de clasificación por K-NN es muy simple e intuitivo, lo que unido a su fácil

implementación hace que sea muy difundido. Básicamente se deben seguir los siguientes

pasos:

1) Hallar la distancia entre el nuevo elemento, representado por el vector 0x y cada

vector de la fila de matriz X . En total se calculan n distancias.

2) Ordenar en forma ascendente las distancias calculadas en el paso anterior.


26

3) Observar las K distancias más cercanas al nuevo elemento 0x y sus respectivas

categorías o grupos al que pertenecen los elementos involucrados en el cálculo de las

K distancias.

4) Asignar la categoría más frecuente al nuevo elemento 0x

Explicación gráfica del algoritmo

Se tienen 40 elementos bidimensionales, representados en el plano; éstos elementos

pertenecen a dos grupos: 22 de estos elementos pertenecen al grupo ×, y 18 elementos

pertenecen al grupo ◊.

El nuevo elemento, representado por •, tiene como elementos más cercanos a uno de la

clase ×, y a dos de la clase ◊. Si se usa el clasificador 3-NN (K = 3 vecinos más

cercanos), el nuevo elemento debe ser clasificado como perteneciente a la clase ◊. Se

debe resaltar que si se hubiese utilizado el clasificador 1-NN (K = 1 vecino más cercano),

el nuevo elemento se hubiese clasificado como perteneciente al grupo ×.

Función en lenguaje R

La función “clasifica”, escrita en lenguaje R, realiza cada paso del algoritmo K-NN

básico. Esta función tiene como datos de entrada la matriz de variables predictoras X, el


27

vector que contiene las categorías de grupo Y, y el nuevo vector que se desea clasificar.

La función “clasifica” hace uso de la función “distancia” presentada anteriormente.

clasifica=function(X,Y,nuevo) { n=dim(X)[1] d=rep(0,n) for(i in 1:n) {d[i]=distancia(X[i,],nuevo)} dd=sort(d,index.return=T) do=dd$x; ix=dd$ix; cl=Y[ix] aa=data.frame(do,cl) return(aa) } Función propia del lenguaje R

La función “clasifica” es una función sencilla, escrita para ilustrar el funcionamiento del

algoritmo K-NN. Esta función puede clasificar sólo un nuevo elemento a la vez; si se

quisiera clasificar todo un grupo de elementos, entonces se debe hacer uso la función

“knn”, de la Liberia “class”, propia del lenguaje R.

Ejemplo

Clasificación en dos grupos: Una empresa tiene el registro de 84 clientes, todos ellos



Grupos:





• Inversión: Cantidad total invertido en bonos y accione


28

Para conocer el poder de clasificación del clasificador K-NN se reclasifica los elementos

de la muestra. Cada elemento de la muestra tiene grupo conocido (1 ó 2), usando el

clasificador K-NN se ubica cada elemento de la muestra como si no se conociese sus

grupo. Resultan las siguientes matrices de clasificación

MATRIZ DE CLASIFICACION. 3-NN




84

La tabla anterior muestra que el clasificador 3-NN tiene buen poder de clasificación, ya

que de 57 clientes no suscritos, sólo 1 fue mal clasificado y de 27 clientes suscritos, sólo

2 fueron mal clasificados. En total, el clasificador 3-NN, los tres vecinos más cercanos,

cometió 3 malas clasificaciones.

Si K = 5, el clasificador 5-NN, no necesariamente es más eficiente que 3-NN. Esto lo

demuestra la siguiente tabla. De 57 clientes no suscritos, 3 fueron mal clasificados y de

27 clientes suscritos, 2 fueron mal clasificados. En total, el clasificador 5-NN, los cinco

vecinos más cercanos, cometió 5 malas clasificaciones.





84


29


Para clasificar un nuevo cliente, como suscrito (2) o no-suscrito (1) a Wall Street Journal,

con un ingreso anual de 60000 dólares y 10000 dólares de inversión. Este cliente es

representado por el vector: 0 (60000,10000)=x

En esta aplicación es posible clasificar al nuevo cliente, mediante la aplicación de la

función “clasifica”

> clasifica(X,Y,nuevo) K distancia grupo 1 4846.648 1 2 4909.175 1 3 5672.742 1 4 8509.407 1 5 8516.455 1 6 8927.486 1 7 9302.150 1 8 9464.143 1 9 11317.685 1 10 11335.784 1 . . . . . . . . . 83 62538.948 2 84 63544.709 2 Usando la función propia del lenguaje R, se comprueba lo dicho anteriormente. A

continuación se presentan las salidas de los clasificadores 3-NN y 5-NN.

> knn(X,nuevo,Y,3) [1] 1 Levels: 1 2 > knn(X,nuevo,Y,5) [1] 1 Levels: 1 2

La function “clasifica” calcula la distancia entre cada elemento de la muestra y el nuevo elemento, 0 (60000,10000)=x , ordena las

distancias así como el grupo al que pertenece. Se puede observar que el clasificador K-NN, para K de 1 a 10, ubica al nuevo elemento como perteneciente al grupo 1, Cliente No suscrito.


30

Ejemplo:

Clasificación en tres grupos: Una compañía especializada en textos universitarios, es

representante de un libro de computación con el cual ha alcanzado sus mejores ventas. La

compañía tiene registrado a 119 universidades en tres grupos:

Grupos: variable nominal













NUNCA 34 3 3 40

YA_NO 6 28 3 37

SIGUEN 1 5 36 42

119



NUNCA 34 4 2 40

YA_NO 9 25 3 37

SIGUEN 0 8 34 42

119


31

Para conocer el poder de clasificación del clasificador K-NN se reclasifica los elementos

de la muestra. Cada elemento de la muestra tiene grupo conocido (1, 2 ó 3). En las tablas

anteriores se observa que el clasificador 3-NN cometió 21 malas clasificaciones, mientras

que el clasificador 5-NN cometió 26 malas clasificaciones.



“nunca”, “ya no”, “siguen”, con base en la información de las características en estudio:

0 (17455,1068, 79.3,154, 46.5,17400) '=x

En esta aplicación es posible clasificar al nuevo cliente, mediante la aplicación de la

función “clasifica”

> clasifica(X,Y,nuevo) K distancia grupo 1 0.000 1 2 1166.729 1 3 1425.111 1 4 2083.406 2 5 2202.211 1 6 2292.732 3 7 2388.270 1 8 2636.942 3 9 2655.006 1 10 3206.436 1 . . . . . . . . . 118 13292.389 3 119 16046.848 3

Usando la función propia del lenguaje R, se comprueba lo dicho anteriormente. A

continuación se presentan las salidas de los clasificadores 1-NN, 3-NN y 5-NN.

> knn(X,nuevo,Y,1) [1] 1 Levels: 1 2 3

La function “clasifica” calcula la distancia entre cada elemento de la muestra y el nuevo elemento,

0 (17455,1068, 79.3,154, 46.5,17400) '=x , ordena

las distancias así como el grupo al que pertenece. Se puede observar que en el clasificador 5-NN, las frecuencias son 4 para el grupo1 y 1 para el grupo 2. En 10-NN, las frecuencias son 7 para el grupo 1, 1 para el grupo 2 y 2 para el grupo 3. Se ubica al nuevo cliente como perteneciente al grupo 1, “Nunca compraron el libro”.


32

> knn(X,nuevo,Y,3) [1] 1 Levels: 1 2 3 > knn(X,nuevo,Y,5) [1] 1 Levels: 1 2 3

REFERENCIAS

• Richard A. Johnson and Dean W. Wichern (2007). Applied Multivariate Statistical Analysis. Sixth edition. Pearson, Prentice Hall.

• Ezequiel Uriel Jimenez y Joaquin Aldas Manzano (2005). Análisis Multivariante Aplicado. Thomsom Paraninfo, S.A.

• Luque Martinez, T. (2000). Técnicas de análisis de datos en investigación. Pirámide, Madrid.

• Mardia, K.V., Kent, J.T. and Bibby, J.M. (2003). Multivariate Analysis (paperback). London: Academic Press.

• Morrison, D.F. (2005). Multivariate Statistical Methods. 4th ed. Belmont, CA: Brooks/Cole Thomsom Learning.

• Srivastava, M.S. (2002). Methods of Multivariate Statistics. New York: John Wiley.

• Albright S., Winston W., Zappe C. (2000). Managerial Statistics, Duxbury

• Salas Velasco Manuel (1996). La regresión logística, una aplicación a la demanda de estudios universitarios. Departamento de Economía Aplicada, Universidad de Granada. Revista Estadística Española, vol. 38, Num. 141.

• Calderón Mónica, Blanco Lorena (2005). Análisis Multivariado aplicado al

mercado mundial de vinos. http://www.aaep.org.ar/anales/works/works2005/calderon_blanco.pdf

• Richarme Michael, decision analyst. Eleven Multivariate Analysis Techniques:

Key Tools in Your Marketing Research Survival Kit. http://decisionanalyst.com/Downloads/MultivariateAnalysisTechniques.pdf


33

• Sanchez Arellano A., Gil J., Heras Martinez A. (2003). El Análisis Discriminante en la previsión de la insolvencia en las empresas de seguros de no vida. Revista Española de Financiación y Contabilidad. Vol. 32, Num. 116.

• Fernandez Padilla Rigoberto. Técnicas estadísticas multivariadas y sus

aplicaciones a indicadores e índices económicos financieros de la actividad turística. http://www.gestiopolis.com/canales7/fin/matematicas-aplicacion-de-estadisticas-multivariables-e-indicadores-financieros.htm

• Zakrzewska D. (2007). On integrating unsupervised and supervised classification

for credit risk evaluation. Information Technology and control. Vol. 36, No. 1A.

• Abdelmalik Moujahid, Iñaki Inza y Pedro Larrañaga. Clasificadores K-NN. Departamento de Ciencias de la Computación e inteligencia Artificial, Universidad del Pais Vasco-Euskal Herriko Unibertsitatea.