Clasificación Supervisada José Carlos Vega Vilca, Ph.D.
0
UNIVERSIDAD DE PUERTO RICO RECINTO DE RIO PIEDRAS
FACULTAD DE ADMINISTRACION DE EMPRESAS Instituto de Estadística y Sistemas Computadorizados de Información
CLASIFICACION SUPERVISADA Aplicado a casos de
Administración de Empresas Marzo - 2011
Preparado por: José Carlos Vega Vilca, Ph.D.
Clasificación Supervisada José Carlos Vega Vilca, Ph.D.
1
ANALISIS DISCRIMINANTE, APLICADO A LA
ADMINISTRACION DE EMPRESAS
Introducción.- En negocios hay muchas situaciones donde sujetos en estudio deben ser separados en dos
o más grupos bien definidos. Estos sujetos pueden ser personas, ciudades, universidades,
países u otros. El propósito del Análisis Discriminante es construir un clasificador, o
función clasificadora basada en datos multivariados, pertenecientes a grupos bien
conocidos por el investigador, para ser usado en clasificación de nuevos sujetos y estos
puedan ser localizados en alguno de estos grupos en estudio.
En análisis de datos univariados los sujetos en estudio están caracterizados por sólo una
variable, mientras que en análisis multivariado cada sujeto en estudio es caracterizado por
un conjunto de p-variables dispuestos en un vector 1 2( , , , ) 'px x x=x L y por lo tanto una
muestra de n sujetos, definen una matriz de datos X de orden n×p.
En negocios se espera que el análisis discriminante responda a inquietudes propias de la
clasificación. Según las características multivariadas de nuevos sujetos (clientes) se
podrán dar respuestas a interrogantes tales como, ¿Comprará, este cliente nuestro
producto, o no? ¿Devolverá, este cliente el crédito, o no? ¿Se adaptará, este candidato al
puesto de trabajo, o no?
La aplicación práctica del análisis discriminante se ilustra mediante el siguiente caso:
Cuando un banco concede un préstamo personal a un cliente se enfrenta a la doble
posibilidad de que sea reintegrado o de que no lo sea. En este último caso el préstamo
será finalmente clasificado como fallido. Así pues, se pueden considerar dos grupos de
clientes: clientes cumplidores y clientes fallidos. Como es obvio, si el banco conociera de
antemano que una persona va a resultar fallida no le concedería el préstamo de ninguna
manera. El banco, sin embargo, puede utilizar la información existente sobre los
préstamos concedidos en el pasado y su destino de cumplimiento, para otorgar préstamos
Clasificación Supervisada José Carlos Vega Vilca, Ph.D.
2
futuros de forma que se evite o, al menos se reduzca la posibilidad de conceder préstamos
que después puedan resultar fallidos. Así, en los archivos del banco seguramente existirá
información de las características de las personas a las que se ha concedido un préstamo,
ya que el cliente, cuando realiza una petición de préstamo, debe facilitar datos acerca de
cuestiones tales como ingresos, edad, sexo, situación familiar, antigüedad en su puesto de
trabajo, gastos, números de dependientes, etc. Es muy posible que los clientes
cumplidores tengan unas características distintas a la de los clientes fallidos. Utilizando
estas características, registradas en el pasado, se trata de establecer una función
clasificadora, para determinar si se conceden o no los préstamos a futuros solicitantes.
El problema general en clasificación
Se tiene G de grupos. Cada grupo g∈{1, 2, …, G} está formado por un conjunto de Ng
sujetos. Cada sujeto, que sólo puede pertenecer a un grupo, está caracterizado por un
conjunto de p-variables dispuestos en un vector 1 2( , , , ) 'px x x=x L .
Problema: Se tiene un nuevo sujeto caracterizado por las p-variables consideradas. ¿En
cuál de los grupos g∈{1, 2, …, G} debe ser clasificado.
Respuesta: El nuevo sujeto debe ser clasificado en el grupo donde sus características
anotadas en las p-variables consideradas, son similares al grupo considerado.
Estrategia: El total de sujetos en los G grupos: 1 2 GN N N+ + +L son usados para
construir la función clasificadora, también llamado clasificador. Los valores
de las p-variables consideradas son reemplazados en el clasificador y éste dará
la probabilidad de pertenecer a cada uno de los grupos. El nuevo sujeto será
clasificado al grupo donde la probabilidad de pertenencia sea el valor más
grande.
Clasificación Supervisada José Carlos Vega Vilca, Ph.D.
3
Análisis Discriminante Lineal (LDA) El fundamento del Análisis Discriminante Lineal (LDA, por sus siglas en inglés) está
basado en la Teoría de Decisión que necesita conocer la probabilidad posterior
P(y=g/x=x0) es decir la probabilidad de clasificar algún vector de observaciones x0, en un
grupo g∈{1, 2, …, G}, con probabilidades a priori P(y=g) = Πg siendo 11
=Π∑ =
G
g g . Se
supone que en cada grupo g, la densidad fg(x) es normal multivariada con vector de
medias μg y matriz de covarianzas Σ, común para todas las clases.
{ })()(exp||)2(
1)( 121
2/12/ ggpgf μxμxx −Σ′−−Σ
= −
π (1)
La aplicación del Teorema de Bayes es necesaria para calcular la probabilidad posterior
de clasificación
∑ =Π
Π=== G
g gg
gg
f
fgyP
1 0
00
)(
)()/(
x
xxx g = 1, …, G (2)
La clasificación del vector observación x0 está dado por la siguiente regla:
)/*(maxarg* 0},1{0 xxx ==⇔∈ ∈ gyPg Gg L (3)
En la expresión (2) se puede observar que el denominador es constante y por lo tanto la
probabilidad posterior es una cantidad directamente proporcional a ggf Π)( 0x
)/( 0xx == gyP ∝ ggf Π)( 0x
∝ { })()(exp 01
021
gg μxμx −Σ′−− − Πg
∝ { }ggg μμμx 1211
0exp −− Σ′−Σ′ Πg
∝ { }gggg Π+Σ′−Σ′ −− logexp 1211
0 μμμx
Clasificación Supervisada José Carlos Vega Vilca, Ph.D.
4
∝ { } { }0 0exp exp ( )g g gc δ′ + =x β x
∝ )( 0xgδ (4)
Por el resultado obtenido en (4), una regla de clasificación equivalente a la presentada en
(3), es la siguiente:
{ })(maxarg* 0*},1{0 xx gGgg δL∈⇔∈ (5)
En general, la expresión ( )g g gcδ ′= +x x β , con 1g g
−= Σβ μ y 112 logg g g gc −= − Σ + Πμ μ ,
es llamada función discriminante lineal. Donde ),,,( 21 ′= pxxx Lx es un vector aleatorio,
1 2( , , , )g g g pgβ β β ′=β L es un vector de coeficientes y cg es un término constante. Por
tanto la función discriminante lineal para cada grupo g, queda expresada de la siguiente
forma:
1 1 2 2( )g g g g pg pc x x xδ β β β= + + + +x L ; g = 1, 2, …, G (6)
Aplicación Para la aplicación, se consideran los datos de Albright et.al. (2000). Se ha confeccionado
un programa en lenguaje R que hace todos los cálculos
1. Aplicación en dos grupos: Una empresa tiene el registro de 84 clientes, todos ellos
dedicado al mundo de los negocios. Algunos de ellos están suscritos a la revista Wall
Street Journal y los otros no
Grupos:
• Grupo 1: NO.- Clientes no suscritos a Wall Street Journal
• Grupo 2: SI.- Clientes suscritos a Wall Street Journal
Clasificación Supervisada José Carlos Vega Vilca, Ph.D.
5
Variables discriminantes:
• Ingreso: ingreso anual del cliente
• Inversión: Cantidad total invertido en bonos y acciones
Fig. No.1, GRAFICO DE PUNTOS: Representación de clientes de los dos grupos
Tabla No. 1: PROMEDIOS de cada variable
Grupos Ingreso promedio Inversión promedio
NO: no suscritos 66042.11 24952.63
SI: suscritos 80485.19 53000.00
Tabla No. 2: MATRIZ DE VARIANZAS-COVARIANZAS, COMUN
Ingreso Inversión
Ingreso 14812033021 6123163684
Inversión 6123163684 7663422105
Clasificación Supervisada José Carlos Vega Vilca, Ph.D.
6
Tabla No.3: MATRIZ DE CLASIFICACION
No-suscritos Si-suscritos Total
No-suscritos 52 5 57
Si-suscritos 2 25 27
84
FUNCION DISCRIMINANTE
CLASIFICADOR: ECUACION DE LA RECTA
Fig. No. 2, REPRESENTACION GRAFICA DEL CLASIFICADOR
( ) 0.00006586* 0.0003527348* 8.92316D Ingreso Inversión= − +x
0.1867125* 25297.08Inversión Ingreso= +
0.00006586* 0.0003527348* 8.92316 0Ingreso Inversion− + =
clasificador
Clasificación Supervisada José Carlos Vega Vilca, Ph.D.
7
PROCEDIMIENTO PARA CLASIFICAR UN NUEVO CLIENTE.
Para clasificar un nuevo cliente, como suscrito o no-suscrito a Wall Street Journal, con
un ingreso anual de 60000 dólares y 10000 dólares de inversión. Este cliente es
representado por el vector:
En esta aplicación es posible clasificar al nuevo cliente usando cualquiera de las tres
formas siguientes:
Ubicar el vector en el gráfico de puntos
El punto 0x = (60000, 10000)’ se ubica en el plano representado en la Fig. No. 2. Se
concluye que el cliente debe ser clasificado como perteneciente al grupo de los no-
suscritos.
Uso de la función discriminante
Como el valor de la función discriminante es mayor que cero, el nuevo cliente debe ser
clasificado en el grupo de los no-suscritos a la revista. En caso contrario deberá ser
clasificado en el grupo de los suscritos a la revista.
Uso de la probabilidad posterior
La probabilidad de que el nuevo cliente sea clasificado como perteneciente al grupo de
los suscritos
La probabilidad de que el nuevo cliente sea clasificado como perteneciente al grupo de
los no-suscritos
0 (60000, 10000) '=x
0( ) 0.00006586* 0.0003527348* 8.92316D = − +x 60000 10000
0( ) 9.347412 0D =x >
( ) [ ] 05-8.718318e1)347412.9exp(
11)(exp
1|0
02 =+
=+
=x
xD
P π
( ) ( )[ ] 0.9999128)347412.9exp(1
1exp1
1|0
01 =−+
=−+
=x
xD
P π
Clasificación Supervisada José Carlos Vega Vilca, Ph.D.
8
Se observa que la probabilidad de pertenecer al grupo de los no-suscritos es mayor que la
probabilidad de pertenecer al grupo de los suscritos. Por lo tanto el nuevo cliente será
clasificado como perteneciente al grupo de los no-suscritos.
2. Aplicación en tres grupos: Una compañía especializada en textos universitarios, es
representante de un libro de computación con el cual ha alcanzado sus mejores
ventas. La compañía tiene registrado a 119 universidades en tres grupos:
Grupos:
• Grupo 1: NUNCA.- Universidades que nunca le compraron el libro
• Grupo 2: YA NO.- Universidades que ya no le compran el libro
• Grupo 3: SIGUEN.- Universidades que siguen comprando el libro
Variables discriminantes:
• X1: Total de alumnos en la universidad
• X2: Promedio SAT
• X3: Porcentaje de cursos que requieren asistencia
• X4: Número de PC disponibles en la universidad
• X5: Porcentaje de estudiantes con PC propia
• X6: Promedio anual de estudiantes matriculados
Tabla No. 4: PROMEDIOS de cada variable
Grupo X1 X2 X3 X4 X5 X6
NUNCA 14799.05 1134.28 80.60 148.15 54.93 14997.50
YA NO 14888.46 921.73 59.88 101.62 43.95 9878.38
SIGUEN 19575.60 950.14 59.48 153.29 51.99 9680.95
Clasificación Supervisada José Carlos Vega Vilca, Ph.D.
9
Tabla No. 5: MATRIZ DE VARIANZAS-COVARIANZAS, COMUN
X1 X2 X3 X4 X5 X6
X1 503920787.2 -6095139.5 -414582.4 1.40e+06 -689418.9 -229036851
X2 -6095139.5 1016284.4 28703.1 8.29e+04 58951.3 13996126
X3 -414582.4 28703.1 4432.8 1.93e+01 2743.5 1045239
X4 1403197.0 82864.9 19.3 8.30e+04 3038.1 3234841
X5 -689418.9 58951.3 2743.5 3.04e+03 11217.5 1787913
X6 -229036851.2 13996125.6 1045238.9 3.23e+06 1787912.9 1117937215
Tabla No. 6: MATRIZ DE CLASIFICACION
NUNCA YA_NO SIGUEN TOTAL
NUNCA 39 0 1 40
YA_NO 0 34 3 37
SIGUEN 0 3 39 42
119
Tabla No. 7: FUNCION DISCRIMINANTE
Variables 12 ( )D x 13 ( )D x 23( )D x
X1 12a = 0.0002646156 13a = -0.0007530045 23a = -0.0010176201
X2 12b = 0.0103142274 13b = 0.0145923633 23b = 0.0042781359
X3 12c = 0.5711362115 13c = 0.5000922141 23c = -0.0710439974
X4 12d = 0.0583431022 13d = -0.0060218883 23d = -0.0643649905
X5 12e = -0.0544522169 13e = -0.2357332707 23e = -0.1812810538
X6 12f = -0.0001594750 13f = 0.0001415569 23f = 0.0003010319
constante 12k = -57.25612 13k = -25.52921 23k = 31.72691
Clasificación Supervisada José Carlos Vega Vilca, Ph.D.
10
El clasificador consta de tres funciones:
12 ( )D x : clasifica en los grupos NUNCA compran y YA_NO compran
13 ( )D x : clasifica en los grupos NUNCA compran y SIGUEN comprando
23( )D x : clasifica en los grupos YA_NO compran y SIGUEN comprando
La Tabla No. 7, contiene los coeficientes de cada una de las tres funciones
12 12 1 12 2 12 3 12 4 12 5 12 6 12( )D a X b X c X d X e X f X k= + + + + + +x
13 13 1 13 2 13 3 13 4 13 5 13 6 13( )D a X b X c X d X e X f X k= + + + + + +x
23 23 1 23 2 23 3 23 4 23 5 23 6 23( )D a X b X c X d X e X f X k= + + + + + +x
PROCEDIMIENTO PARA CLASIFICAR UNA NUEVA UNIVERSIDAD
Para clasificar una nueva universidad ( 0x ), como perteneciente a uno de los grupos:
NUNCA, YA_NO, SIGUEN, con base en la información de las características en estudio:
0 (17455,1068, 79.3,154, 46.5,17400) '=x
En esta aplicación es posible clasificar a la nueva universidad usando cualquiera de las
dos formas siguientes:
Usar la función discriminante
Según las dos primeras funciones, la nueva universidad debe ser clasificada en el grupo 1,
es decir en el grupo de las universidades que NUNCA compraron el libro
Usar la probabilidad posterior
La probabilidad de que la nueva universidad sea clasificada como perteneciente al grupo
de los que SIGUEN comprando el libro:
12 0( ) 7.347388D =x
13 0( ) 7.143177D =x
23 0( ) 0.2042108D = −x
Clasificación Supervisada José Carlos Vega Vilca, Ph.D.
11
La probabilidad de que la nueva universidad sea clasificada como perteneciente al grupo
de los que YA_NO compran el libro:
La probabilidad de que la nueva universidad sea clasificada como perteneciente al grupo
de los que NUNCA compraron el libro:
Se observa que la probabilidad de pertenecer al grupo de los que NUNCA compraron el
libro es mayor que la probabilidad de pertenecer a los otros dos grupos. Por lo tanto, la
nueva universidad será clasificada como perteneciente al grupo de los que NUNCA
compraron el libro.
( ) [ ] [ ] 0007891055.01)(exp)(exp
1|023013
03 =++
=xx
xDD
P π
( ) [ ] [ ] 0006433502.0)(exp1)(exp
1|023012
02 =−++
=xx
xDD
P π
( ) [ ] [ ] 0.9985675xx
x =−+−+
=)(exp)(exp1
1|013012
01 DDP π
Clasificación Supervisada José Carlos Vega Vilca, Ph.D.
12
REGRESION LOGISTICA, APLICADO A LA
ADMINISTRACION DE EMPRESAS
Introducción En Regresión Logística, cada fila de la matriz de predictoras corresponde a las
observaciones del vector aleatorio p-dimensional )'( 21 pxxx L=x , las entradas del
vector de respuestas Y, corresponde a la observación de la variable respuesta y, la cual
representa una categoría, codificada dentro del conjunto { }G,,2,1 L , que se llamará
grupo o clase, para efectos de clasificación supervisada. Si la variable respuesta es
categórica, con dos clases (G = 2), se tiene el modelo de regresión logística dicotómico,
definido de la siguiente manera:
pp xxxcyP
yP βββ ++++=⎟⎟⎠
⎞⎜⎜⎝
⎛=−
=L2211)1(1
)1(log
Una forma equivalente de representar el modelo anterior, es el siguiente:
)(exp1)(exp
)1(2211
2211
pp
pp
xxxcxxxc
yPβββ
βββ+++++
++++==
L
L
Si la variable respuesta es categórica, con más de dos clases, el modelo de regresión
logística es generalizado a Regresión Logística Nominal o Regresión Logística Ordinal.
Regresión Logística Ordinal
Este modelo es usado cuando hay un obvio orden natural en las categorías de la variable
respuesta. Hay varios modelos diferentes en regresión logística ordinal; aquí será usado el
llamado modelo de chances proporcionales. La probabilidad de clasificar una
observación en una de las G clases, según este modelo, es obtenido de:
Clasificación Supervisada José Carlos Vega Vilca, Ph.D.
13
)(exp1
)(exp)(
2211
2211
ppg
ppg
xxxcxxxc
gyPβββ
βββ+++++
++++=≤
L
L
1,,2,1 −= Gg L
Se debe notar que P(y ≤ G) = 1. Además el modelo de regresión logística ordinal también
puede ser presentado de la siguiente forma:
ppg xxxcgyPgyP βββ ++++=⎟⎟⎠
⎞⎜⎜⎝
⎛>≤
L2211)()(log
1,,2,1 −= Gg L
Regresión Logística Nominal
Este modelo es usado cuando no hay un orden natural en las categorías de la variable
respuesta. Aquí una categoría es elegida arbitrariamente como la categoría de referencia.
Supongamos que ésta es la primera categoría, entonces la probabilidad de clasificar una
observación en una de las G clases es obtenida del modelo:
pgpggg xxxcyP
gyP βββ ++++=⎟⎟⎠
⎞⎜⎜⎝
⎛==
L2211)1()(log
Gg ,,3,2 L=
Predicción en regresión logística
Una vez que se han estimado los parámetros de la regresión logística, ordinal o nominal,
se puede hacer la predicción de una observación )'( 210 pxxx L=x , lo cual consiste en la
clasificación de dicha observación en una de las G clases. Para lograr este objetivo se
estiman las probabilidades de pertenecer a cada una de las G clases y se aplica la
siguiente regla:
∈0x clase g* ⇔ g* = arg max P(y = g)
g En palabras simples, después de calcular la probabilidad de pertenecer a cada uno de los
G grupos, la nueva observación 0x , es clasificada al grupo donde la probabilidad de
pertenencia es la mayor.
Clasificación Supervisada José Carlos Vega Vilca, Ph.D.
14
Odds Ratio (OR)
Sea Y una variable binomial puntual, con probabilidad de éxito p, es decir
( )P Y éxito p= =
Si la variable Y depende de una variable dicotómica X, con valores posibles: 0 y 1, el
odds ratio se define mediante la siguiente expresión:
Odds Ratio:
( | 1)( | 1)
( | 0)( | 0)
P Y éxito XP Y fracaso XOR P Y éxito XP Y fracaso X
= == === =
= =
= / | 1/ | 0
p q Xp q X
==
= ( 1)( 0)
odds Xodds X
==
Ejemplo:
Sean dos juegos, la probabilidad de ganar en el juego A (X = 1), es 1/2; la probabilidad de
ganar en el juego B (X = 0), es 1/6. El odds ratio se calcula de la siguiente manera
OR = / | 1/ | 0
p q Xp q X
==
= ( )( )
odds X juego Aodds X juego B
==
=
1/ 21/ 21/ 65 / 6
= 5
Interpretación: el odds para el juego A es 5 veces el odds del juego B; es decir, la
oportunidad de ganar en el juego A es 5 veces la oportunidad de ganar en el juego B.
Regresión logística simple
Sea Y una variable binomial puntual, donde se cumple: ( )P Y éxito p= = y
( ) 1P Y fracaso p q= = − = .
Sea X una variable aleatoria o no, continua o discreta. El modelo de regresión expresa el
logaritmo del odds para un valor de X.
0 1ln |1
p X x xp
β β⎛ ⎞
= = +⎜ ⎟−⎝ ⎠
En forma simplificada:
Clasificación Supervisada José Carlos Vega Vilca, Ph.D.
15
0 1ln1
p xp
β β⎛ ⎞
= +⎜ ⎟−⎝ ⎠
En otra forma equivalente:
0 1
0 1
exp( )1 exp( )
xpx
β ββ β+
=+ +
=> 0 1
11 exp{ ( )}
pxβ β
=+ − +
En matemática aplicada se denomina función logística a la siguiente función:
1( )1 exp( )
f zz
=+ −
Gráfica de la función logística:
OR cuando la variable X, puede tomar sólo valores: 0 y 1
Para X = 1 => 0 1ln | 11
p Xp
β β⎛ ⎞
= = +⎜ ⎟−⎝ ⎠
Para X = 0 => 0ln | 01
p Xp
β⎛ ⎞
= =⎜ ⎟−⎝ ⎠
Clasificación Supervisada José Carlos Vega Vilca, Ph.D.
16
Por lo tanto: 1ln | 1 ln | 01 1
p pX Xp p
β⎛ ⎞ ⎛ ⎞
= − = =⎜ ⎟ ⎜ ⎟− −⎝ ⎠ ⎝ ⎠
1/ | 1ln/ | 0
p q Xp q X
β⎡ ⎤=
=⎢ ⎥=⎣ ⎦
1/ | 1 exp( )/ | 0
p q Xp q X
β==
=
1( 1) exp( )( 0)
odds XORodds X
β== =
=
Interpretación:
OR = 1 => 1 0β = : Y es independiente de la variable X
OR ≠ 1 => 1 0β ≠ : Y es dependiente de la variable X
Ejemplo 1:
En un estudio con los clientes de un banco, se ha investigado si el cliente, si o no, tiene
como tarjeta de crédito principal la ofrecida por del banco y si el cliente, si o no, tiene
ahorros en promedio por más de 500 dólares. El estudio busca determinar la mayor
información
Usa la tarjeta de crédito del
banco (Y = 1)
No usa la tarjeta de crédito del banco
(Y = 0) Tiene ahorros por más
de $500 (X = 1) 120 50
No tiene ahorros por más de $500 (X = 0) 60 85
Total 180 135
Clasificación Supervisada José Carlos Vega Vilca, Ph.D.
17
Una análisis de la tabla de contingencia de los datos, arroja un cálculo de la prueba chi-
cuadrado = 27.262 y un p-value < 0.01, con lo que se puede concluir que dichas variables
si están asociadas. Un análisis de regresión logística determina el valor OR = 3.40, lo que
indica que si se comparan los grupos de clientes con ahorros de más de $500 y los
clientes con menos de $500; la oportunidad de encontrar a un cliente con tarjeta de
crédito principal del banco, en el primer grupo es 3.40 veces la oportunidad de encontrar
a un cliente con tarjeta de crédito principal del banco, en el segundo grupo. Odds 95% CI Predictor Coef SE Coef Z P Ratio Lower Upper Constant -0.348307 0.168616 -2.07 0.039 x 1.22378 0.238253 5.14 0.000 3.40 2.13 5.42
Ejemplo 2:
En un estudio de la efectividad de “cupones de oferta” para comprar un producto a precio
reducido. Un total de 1000 hogares fueron seleccionados para el estudio; a cada hogar se
le envió por correo un “cupón de oferta”. Cada cupón puede reducir el precio del
producto en 5, 10, 15, 20 ó 30 dólares
Valor del cupón de oferta, distribuido
Número de hogares, donde se distribuyó el
cupón de oferta
Número de cupones que fueron utilizados
5 200 30
10 200 55
15 200 70
20 200 100
30 200 137 Odds 95% CI Predictor Coef SE Coef Z P Ratio Lower Upper Constant -2.04435 0.160977 -12.70 0.000 oferta 0.096834 0.008549 11.33 0.000 1.10 1.08 1.12
Cuando el cupón de oferta se incrementa en un dólar, la posibilidad de comprar
utilizando el cupón de oferta se incrementa un 10%.
Clasificación Supervisada José Carlos Vega Vilca, Ph.D.
18
La siguiente gráfica muestra que la línea de regresión logística estimada pasa muy cerca
de los valores observados de proporción de cupones que fueron utilizados la para la
compra del producto promocionado.
La siguiente tabla presenta la proporción observada de cupones que fueron utilizados para
la compra del producto promocionado y la proporción estimada de cupones utilizados
mediante la regresión logística.
Valor del cupón de oferta, distribuido
Número de cupones que fueron utilizados
Proporción observada de
cupones utilizados
Proporción estimada de
cupones utilizados 5 30 0.150 0.1736
10 55 0.275 0.2543
15 70 0.350 0.3562
20 100 0.500 0.4731
30 137 0.685 0.7028
Clasificación Supervisada José Carlos Vega Vilca, Ph.D.
19
Ejemplo 3
Clasificación en dos grupos: Una empresa tiene el registro de 84 clientes, todos ellos
dedicado al mundo de los negocios. Algunos de ellos están suscritos a la revista Wall
Street Journal y los otros no
Grupos:
• Grupo 1: NO.- Clientes no suscritos a Wall Street Journal
• Grupo 2: SI.- Clientes suscritos a Wall Street Journal
Variables discriminantes:
• Ingreso: ingreso anual del cliente
• Inversión: Cantidad total invertido en bonos y accione Odds 95% CI Predictor Coef SE Coef Z P Ratio Lower Upper Constant 7.93044 3.10005 2.56 0.011 Ingreso 0.0000920 0.0000530 1.73 0.083 1.00 1.00 1.00 Inversión -0.0003518 0.0000961 -3.66 0.000 1.00 1.00 1.00
Función Logística
Logit(p) = 7.93044 + 0.0000920 Ingreso – 0.0003518 Inversión
MATRIZ DE CLASIFICACION
No-suscritos Si-suscritos Total
No-suscritos 54 3 57
Si-suscritos 4 23 27
84
La tabla anterior muestra que la función logística tiene buen poder de clasificación, ya
que de 57 clientes no suscritos, sólo 3 fueron mal clasificados y de 27 clientes que
suscritos, sólo 4 fueron mal clasificados. En total, la función logística cometió 7 malas
clasificaciones.
Clasificación Supervisada José Carlos Vega Vilca, Ph.D.
20
PROCEDIMIENTO PARA CLASIFICAR UN NUEVO CLIENTE.
Para clasificar un nuevo cliente, como suscrito o no-suscrito a Wall Street Journal, con
un ingreso anual de 60000 dólares y 10000 dólares de inversión. Este cliente es
representado por el vector:
En esta aplicación es posible clasificar al nuevo cliente, reemplazando sus datos en la
función logística
Logit(p) = 7.93044 + 0.0000920×60000 – 0.0003518×10000
Logit(p) = 9.93244
exp(9.93244)( 1) ( ) 0.99995141 exp(9.93244)
p P Y P No estar suscrito= = = = =+
Por lo tanto:
( 0) ( ) 1 0.0000486q P Y P Estar suscrito p= = = = − =
El nuevo cliente debe ser clasificado como “no sucrito” a la revista.
Ejemplo 4:
Clasificación en tres grupos: Una compañía especializada en textos universitarios, es
representante de un libro de computación con el cual ha alcanzado sus mejores ventas. La
compañía tiene registrado a 119 universidades en tres grupos:
Grupos: variable nominal
• Grupo 1: NUNCA.- Universidades que nunca le compraron el libro
• Grupo 2: YA NO.- Universidades que ya no le compran el libro
• Grupo 3: SIGUEN.- Universidades que siguen comprando el libro
Variables discriminantes:
• X1: Total de alumnos en la universidad
• X2: Promedio SAT
• X3: Porcentaje de cursos que requieren asistencia
• X4: Número de PC disponibles en la universidad
• X5: Porcentaje de estudiantes con PC propia
• X6: Promedio anual de estudiantes matriculados
0 (60000, 10000) '=x
Clasificación Supervisada José Carlos Vega Vilca, Ph.D.
21
La variable grupo es una variable nominal (no hay un orden establecido), por lo que se
debe utilizar el modelo de regresión nominal, presentado a continuación: Odds 95% CI Predictor Coef SE Coef Z P Ratio Lower Upper Logit 1: (3/1) Constant 21.0827 13.6696 1.54 0.123 X1 0.0010158 0.0004107 2.47 0.013 1.00 1.00 1.00 X2 -0.0106481 0.0131094 -0.81 0.417 0.99 0.96 1.02 X3 -0.4794490 0.2103260 -2.28 0.023 0.62 0.41 0.93 X4 0.0039790 0.0399416 0.10 0.921 1.00 0.93 1.09 X5 0.0952364 0.1315610 0.72 0.469 1.10 0.85 1.42 X6 0.0000135 0.0003782 0.04 0.972 1.00 1.00 1.00 Logit 2: (2/1) Constant 58.1784 16.6472 3.49 0.000 X1 -0.0001740 0.0003634 -0.48 0.632 1.00 1.00 1.00 X2 -0.0067755 0.0126433 -0.54 0.592 0.99 0.97 1.02 X3 -0.5649450 0.2176050 -2.60 0.009 0.57 0.37 0.87 X4 -0.0737406 0.0438034 -1.68 0.092 0.93 0.85 1.01 X5 -0.0586858 0.1213370 -0.48 0.629 0.94 0.74 1.20 X6 0.0002232 0.0003074 0.73 0.468 1.00 1.00 1.00
Sean :
31 1 2 3 4 5 621.0827 0.00102 0.01065 0.47945 0.00398 0.09524 0.00001A X X X X X X= + − − + + +
21 1 2 3 4 5 658.1784 0.00017 0.00678 0.56495 0.07374 0.05869 0.00022A X X X X X X= − − − − − +
31 31( 3) ( 3)ln exp( )( 1) ( 1)
P Y P YA AP Y P Y
⎛ ⎞= == ⇒ =⎜ ⎟= =⎝ ⎠
21 21( 2) ( 2)ln exp( )( 1) ( 1)
P Y P YA AP Y P Y
⎛ ⎞= == ⇒ =⎜ ⎟= =⎝ ⎠
De las expresiones anteriores se deduce lo siguiente:
21 31
1( 1)1 exp( ) exp( )
P YA A
= =+ +
21( 2) exp( ) ( 1)P Y A P Y= = × =
31( 3) exp( ) ( 1)P Y A P Y= = × =
Clasificación Supervisada José Carlos Vega Vilca, Ph.D.
22
MATRIZ DE CLASIFICACION
NUNCA YA_NO SIGUEN TOTAL
NUNCA 39 0 1 40
YA_NO 0 34 3 37
SIGUEN 0 2 40 42
119
La tabla anterior muestra que la función logística tiene buen poder de clasificación, ya
que de las 40 universidades que “nunca” compran el libro, sólo 1 fue mal clasificada; de
las 37 universidades que “ya no” compran el libro, sólo 3 fueron mal clasificadas y de las
42 universidades que “siguen” comprando el libro, sólo 2 fueron mal clasificados. En
total, la función logística cometió 6 malas clasificaciones.
PROCEDIMIENTO PARA CLASIFICAR UNA NUEVA UNIVERSIDAD
Para clasificar una nueva universidad ( 0x ), como perteneciente a uno de los grupos:
“nunca”, “ya no”, “siguen”, con base en la información de las características en estudio:
0 (17455,1068, 79.3,154, 46.5,17400) '=x
En esta aplicación es posible clasificar al nuevo cliente, reemplazando sus datos en la
función logística, teniendo presente los siguientes pasos:
1) Calcular 31A = -5.309425 y 21A = -7.121744
2) Calcular ( 1)P Y =
21 31
1( 1)1 exp( ) exp( )
P YA A
= =+ +
= 0.9942808
3) Calcular ( 2)P Y = y ( 2)P Y =
21( 2) exp( ) 0.9942808P Y A= = × = 0.00080274
31( 3) exp( ) 0.9942808P Y A= = × = 0.00491649
La nueva universidad debe ser clasificada como “nunca” comprarán el libro.
Clasificación Supervisada José Carlos Vega Vilca, Ph.D.
23
LOS K-VECINOS MÁS CERCANOS (K-NN)
APLICADOS A LA ADMINISTRACION DE EMPRESAS
Introducción El clasificador K-NN (K-Nearest Neighbour), así como el análisis discriminante lineal y
la regresión logística, necesita que cada fila de la matriz de predictoras, denotada por X
de orden n×p corresponda a las observaciones del vector aleatorio p-dimensional
)'( 21 pxxx L=x y las entradas del vector de respuestas Y de orden n, corresponda a la
observación de la variable respuesta que representa una categoría, codificada dentro del
conjunto { }G,,2,1 L , que se llamará grupo o clase, para efectos de clasificación
supervisada.
Objetivo
El clasificador K-NN tiene como objetivo clasificar un nuevo elemento denotado por 0x ,
p-dimensional, como perteneciente a uno de los grupos { }G,,2,1 L . El nuevo elemento
se clasificará en la clase más frecuente a la que pertenecen sus K vecinos más cercanos
basado en la distancia más cercana. La distancia que se utiliza es la distancia euclidiana.
Distancia euclidiana
La versión más común de la distancia euclidiana es para calcular la distancia entre dos
puntos en el plano. En la siguiente figura están representados en el plano los puntos A y
B, de coordenadas 1 1( , )x y y 2 2( , )x y , respectivamente, que dan origen a un tercer punto
llamado C y los tres puntos definen un triángulo rectángulo. La distancia d entre los
puntos A y B se define mediante la aplicación del “Teorema de Pitágoras”
2 22 1 2 1( ) ( )d x x y y= − + −
Clasificación Supervisada José Carlos Vega Vilca, Ph.D.
24
La generalización de la distancia euclidiana es la distancia entre dos puntos en el espacio
p-dimensional. Sean dos puntos 1 2( , , , )pP x x x= L y 1 2( , , , )pQ y y y= L en el espacio p-
dimensional, la distancia euclidiana entre estos dos puntos se define de la siguiente
manera:
2 2 21 1 2 2( ) ( ) ( )p pd y x y x y x= − + − + + −L
Una función escrita en lenguaje R, que calcula la distancia entre dos puntos en el espacio
p-dimensional, puede ser fácilmente confeccionada:
distancia=function(P,Q) { dif=Q-P dist=sqrt(crossprod(dif)) return(dist) }
Ejemplo:
Hallar la distancia entre los puntos: P(5, 7) y Q(9,10)
Usando la fórmula de distancia se tiene:
2 2(9 5) (10 7) 25 5d = − + − = =
Clasificación Supervisada José Carlos Vega Vilca, Ph.D.
25
Usando la función en R, también se logra el mismo resultado:
P=c(5,7) Q=c(9,10) distancia(P,Q) [1] 5
Ejemplo:
Hallar la distancia entre los puntos P(5, 10, 3, 8, 9) y Q(11, 2, 7, 15, 3)
Usando la fórmula de distancia se tiene:
2 2 2 2 2(11 5) (2 10) (7 3) (15 8) (3 9) 201 14.18d = − + − + − + − + − = =
Usando la función en R, también se logra el mismo resultado:
P=c(5,10,3,8,9) Q=c(11,2,7,15,3) distancia(P,Q) [1] 14.17745
Algoritmo K-NN básico
La base de datos necesaria para la aplicación del clasificador K-NN es la matriz de
predictoras X de orden n p× , donde cada fila ix , para 1, ,i n= L de esta matriz es un
vector de orden p, y el vector de respuestas Y de orden n, que contiene las categorías o
grupos al que pertenecen cada fila de la matriz X . Dado un nuevo elemento, representado
por el vector 0 01 02 0( , , , )px x x=x L , el problema consiste en determinar el grupo donde
debe ser clasificado en el nuevo elemento.
El algoritmo de clasificación por K-NN es muy simple e intuitivo, lo que unido a su fácil
implementación hace que sea muy difundido. Básicamente se deben seguir los siguientes
pasos:
1) Hallar la distancia entre el nuevo elemento, representado por el vector 0x y cada
vector de la fila de matriz X . En total se calculan n distancias.
2) Ordenar en forma ascendente las distancias calculadas en el paso anterior.
Clasificación Supervisada José Carlos Vega Vilca, Ph.D.
26
3) Observar las K distancias más cercanas al nuevo elemento 0x y sus respectivas
categorías o grupos al que pertenecen los elementos involucrados en el cálculo de las
K distancias.
4) Asignar la categoría más frecuente al nuevo elemento 0x
Explicación gráfica del algoritmo
Se tienen 40 elementos bidimensionales, representados en el plano; éstos elementos
pertenecen a dos grupos: 22 de estos elementos pertenecen al grupo ×, y 18 elementos
pertenecen al grupo ◊.
El nuevo elemento, representado por •, tiene como elementos más cercanos a uno de la
clase ×, y a dos de la clase ◊. Si se usa el clasificador 3-NN (K = 3 vecinos más
cercanos), el nuevo elemento debe ser clasificado como perteneciente a la clase ◊. Se
debe resaltar que si se hubiese utilizado el clasificador 1-NN (K = 1 vecino más cercano),
el nuevo elemento se hubiese clasificado como perteneciente al grupo ×.
Función en lenguaje R
La función “clasifica”, escrita en lenguaje R, realiza cada paso del algoritmo K-NN
básico. Esta función tiene como datos de entrada la matriz de variables predictoras X, el
Clasificación Supervisada José Carlos Vega Vilca, Ph.D.
27
vector que contiene las categorías de grupo Y, y el nuevo vector que se desea clasificar.
La función “clasifica” hace uso de la función “distancia” presentada anteriormente.
clasifica=function(X,Y,nuevo) { n=dim(X)[1] d=rep(0,n) for(i in 1:n) {d[i]=distancia(X[i,],nuevo)} dd=sort(d,index.return=T) do=dd$x; ix=dd$ix; cl=Y[ix] aa=data.frame(do,cl) return(aa) } Función propia del lenguaje R
La función “clasifica” es una función sencilla, escrita para ilustrar el funcionamiento del
algoritmo K-NN. Esta función puede clasificar sólo un nuevo elemento a la vez; si se
quisiera clasificar todo un grupo de elementos, entonces se debe hacer uso la función
“knn”, de la Liberia “class”, propia del lenguaje R.
Ejemplo
Clasificación en dos grupos: Una empresa tiene el registro de 84 clientes, todos ellos
dedicado al mundo de los negocios. Algunos de ellos están suscritos a la revista Wall
Street Journal y los otros no
Grupos:
• Grupo 1: NO.- Clientes no suscritos a Wall Street Journal
• Grupo 2: SI.- Clientes suscritos a Wall Street Journal
Variables discriminantes:
• Ingreso: ingreso anual del cliente
• Inversión: Cantidad total invertido en bonos y accione
Clasificación Supervisada José Carlos Vega Vilca, Ph.D.
28
Para conocer el poder de clasificación del clasificador K-NN se reclasifica los elementos
de la muestra. Cada elemento de la muestra tiene grupo conocido (1 ó 2), usando el
clasificador K-NN se ubica cada elemento de la muestra como si no se conociese sus
grupo. Resultan las siguientes matrices de clasificación
MATRIZ DE CLASIFICACION. 3-NN
No-suscritos Si-suscritos Total
No-suscritos 56 1 57
Si-suscritos 2 25 27
84
La tabla anterior muestra que el clasificador 3-NN tiene buen poder de clasificación, ya
que de 57 clientes no suscritos, sólo 1 fue mal clasificado y de 27 clientes suscritos, sólo
2 fueron mal clasificados. En total, el clasificador 3-NN, los tres vecinos más cercanos,
cometió 3 malas clasificaciones.
Si K = 5, el clasificador 5-NN, no necesariamente es más eficiente que 3-NN. Esto lo
demuestra la siguiente tabla. De 57 clientes no suscritos, 3 fueron mal clasificados y de
27 clientes suscritos, 2 fueron mal clasificados. En total, el clasificador 5-NN, los cinco
vecinos más cercanos, cometió 5 malas clasificaciones.
MATRIZ DE CLASIFICACION. 5-NN
No-suscritos Si-suscritos Total
No-suscritos 54 3 57
Si-suscritos 2 25 27
84
Clasificación Supervisada José Carlos Vega Vilca, Ph.D.
29
PROCEDIMIENTO PARA CLASIFICAR UN NUEVO CLIENTE.
Para clasificar un nuevo cliente, como suscrito (2) o no-suscrito (1) a Wall Street Journal,
con un ingreso anual de 60000 dólares y 10000 dólares de inversión. Este cliente es
representado por el vector: 0 (60000,10000)=x
En esta aplicación es posible clasificar al nuevo cliente, mediante la aplicación de la
función “clasifica”
> clasifica(X,Y,nuevo) K distancia grupo 1 4846.648 1 2 4909.175 1 3 5672.742 1 4 8509.407 1 5 8516.455 1 6 8927.486 1 7 9302.150 1 8 9464.143 1 9 11317.685 1 10 11335.784 1 . . . . . . . . . 83 62538.948 2 84 63544.709 2 Usando la función propia del lenguaje R, se comprueba lo dicho anteriormente. A
continuación se presentan las salidas de los clasificadores 3-NN y 5-NN.
> knn(X,nuevo,Y,3) [1] 1 Levels: 1 2 > knn(X,nuevo,Y,5) [1] 1 Levels: 1 2
La function “clasifica” calcula la distancia entre cada elemento de la muestra y el nuevo elemento, 0 (60000,10000)=x , ordena las
distancias así como el grupo al que pertenece. Se puede observar que el clasificador K-NN, para K de 1 a 10, ubica al nuevo elemento como perteneciente al grupo 1, Cliente No suscrito.
Clasificación Supervisada José Carlos Vega Vilca, Ph.D.
30
Ejemplo:
Clasificación en tres grupos: Una compañía especializada en textos universitarios, es
representante de un libro de computación con el cual ha alcanzado sus mejores ventas. La
compañía tiene registrado a 119 universidades en tres grupos:
Grupos: variable nominal
• Grupo 1: NUNCA.- Universidades que nunca le compraron el libro
• Grupo 2: YA NO.- Universidades que ya no le compran el libro
• Grupo 3: SIGUEN.- Universidades que siguen comprando el libro
Variables discriminantes:
• X1: Total de alumnos en la universidad
• X2: Promedio SAT
• X3: Porcentaje de cursos que requieren asistencia
• X4: Número de PC disponibles en la universidad
• X5: Porcentaje de estudiantes con PC propia
• X6: Promedio anual de estudiantes matriculados
MATRIZ DE CLASIFICACION. 3-NN
NUNCA YA_NO SIGUEN TOTAL
NUNCA 34 3 3 40
YA_NO 6 28 3 37
SIGUEN 1 5 36 42
119
MATRIZ DE CLASIFICACION. 5-NN
NUNCA YA_NO SIGUEN TOTAL
NUNCA 34 4 2 40
YA_NO 9 25 3 37
SIGUEN 0 8 34 42
119
Clasificación Supervisada José Carlos Vega Vilca, Ph.D.
31
Para conocer el poder de clasificación del clasificador K-NN se reclasifica los elementos
de la muestra. Cada elemento de la muestra tiene grupo conocido (1, 2 ó 3). En las tablas
anteriores se observa que el clasificador 3-NN cometió 21 malas clasificaciones, mientras
que el clasificador 5-NN cometió 26 malas clasificaciones.
PROCEDIMIENTO PARA CLASIFICAR UNA NUEVA UNIVERSIDAD
Para clasificar una nueva universidad ( 0x ), como perteneciente a uno de los grupos:
“nunca”, “ya no”, “siguen”, con base en la información de las características en estudio:
0 (17455,1068, 79.3,154, 46.5,17400) '=x
En esta aplicación es posible clasificar al nuevo cliente, mediante la aplicación de la
función “clasifica”
> clasifica(X,Y,nuevo) K distancia grupo 1 0.000 1 2 1166.729 1 3 1425.111 1 4 2083.406 2 5 2202.211 1 6 2292.732 3 7 2388.270 1 8 2636.942 3 9 2655.006 1 10 3206.436 1 . . . . . . . . . 118 13292.389 3 119 16046.848 3
Usando la función propia del lenguaje R, se comprueba lo dicho anteriormente. A
continuación se presentan las salidas de los clasificadores 1-NN, 3-NN y 5-NN.
> knn(X,nuevo,Y,1) [1] 1 Levels: 1 2 3
La function “clasifica” calcula la distancia entre cada elemento de la muestra y el nuevo elemento,
0 (17455,1068, 79.3,154, 46.5,17400) '=x , ordena
las distancias así como el grupo al que pertenece. Se puede observar que en el clasificador 5-NN, las frecuencias son 4 para el grupo1 y 1 para el grupo 2. En 10-NN, las frecuencias son 7 para el grupo 1, 1 para el grupo 2 y 2 para el grupo 3. Se ubica al nuevo cliente como perteneciente al grupo 1, “Nunca compraron el libro”.
Clasificación Supervisada José Carlos Vega Vilca, Ph.D.
32
> knn(X,nuevo,Y,3) [1] 1 Levels: 1 2 3 > knn(X,nuevo,Y,5) [1] 1 Levels: 1 2 3
REFERENCIAS
• Richard A. Johnson and Dean W. Wichern (2007). Applied Multivariate Statistical Analysis. Sixth edition. Pearson, Prentice Hall.
• Ezequiel Uriel Jimenez y Joaquin Aldas Manzano (2005). Análisis Multivariante Aplicado. Thomsom Paraninfo, S.A.
• Luque Martinez, T. (2000). Técnicas de análisis de datos en investigación. Pirámide, Madrid.
• Mardia, K.V., Kent, J.T. and Bibby, J.M. (2003). Multivariate Analysis (paperback). London: Academic Press.
• Morrison, D.F. (2005). Multivariate Statistical Methods. 4th ed. Belmont, CA: Brooks/Cole Thomsom Learning.
• Srivastava, M.S. (2002). Methods of Multivariate Statistics. New York: John Wiley.
• Albright S., Winston W., Zappe C. (2000). Managerial Statistics, Duxbury
• Salas Velasco Manuel (1996). La regresión logística, una aplicación a la demanda de estudios universitarios. Departamento de Economía Aplicada, Universidad de Granada. Revista Estadística Española, vol. 38, Num. 141.
• Calderón Mónica, Blanco Lorena (2005). Análisis Multivariado aplicado al
mercado mundial de vinos. http://www.aaep.org.ar/anales/works/works2005/calderon_blanco.pdf
• Richarme Michael, decision analyst. Eleven Multivariate Analysis Techniques:
Key Tools in Your Marketing Research Survival Kit. http://decisionanalyst.com/Downloads/MultivariateAnalysisTechniques.pdf
Clasificación Supervisada José Carlos Vega Vilca, Ph.D.
33
• Sanchez Arellano A., Gil J., Heras Martinez A. (2003). El Análisis Discriminante en la previsión de la insolvencia en las empresas de seguros de no vida. Revista Española de Financiación y Contabilidad. Vol. 32, Num. 116.
• Fernandez Padilla Rigoberto. Técnicas estadísticas multivariadas y sus
aplicaciones a indicadores e índices económicos financieros de la actividad turística. http://www.gestiopolis.com/canales7/fin/matematicas-aplicacion-de-estadisticas-multivariables-e-indicadores-financieros.htm
• Zakrzewska D. (2007). On integrating unsupervised and supervised classification
for credit risk evaluation. Information Technology and control. Vol. 36, No. 1A.
• Abdelmalik Moujahid, Iñaki Inza y Pedro Larrañaga. Clasificadores K-NN. Departamento de Ciencias de la Computación e inteligencia Artificial, Universidad del Pais Vasco-Euskal Herriko Unibertsitatea.