46

DATA MINING decisiones

  • Upload
    others

  • View
    1

  • Download
    0

Embed Size (px)

Citation preview

Page 1: DATA MINING decisiones
Page 2: DATA MINING decisiones

DATA MININGDATA MININGUna herramienta para la toma de Una herramienta para la toma de

decisionesdecisiones

Jorge Martín Jorge Martín ArevalilloArevalillo

Dpto. Estadística e Investigación OperativaDpto. Estadística e Investigación OperativaU.N.E.DU.N.E.D

14 DICIEMBRE 200014 DICIEMBRE 2000

Page 3: DATA MINING decisiones

Data Data Mining Mining y Data y Data WarehouseWarehouse

•• El Data El Data Warehouse Warehouse dota a las organizaciones de dota a las organizaciones de memoriamemoria

•• El Data El Data Mining Mining dota a las organizaciones de dota a las organizaciones de inteligenciainteligencia

Page 4: DATA MINING decisiones

¿ Qué es el Data ¿ Qué es el Data MiningMining ??

Es un proceso que utiliza diversas herramientasEs un proceso que utiliza diversas herramientasprocedentes del análisis de datos y la procedentes del análisis de datos y la modelización modelización

cuyo objetivo es la predicción y la síntesis de la cuyo objetivo es la predicción y la síntesis de la información como elementos que garanticen la toma información como elementos que garanticen la toma

argumentada de decisionesargumentada de decisiones

Page 5: DATA MINING decisiones

¿ Por qué ahora ?¿ Por qué ahora ?

•• Existencia de cantidades ingentes de datosExistencia de cantidades ingentes de datos•• Capacidad de almacenamiento de la informaciónCapacidad de almacenamiento de la información•• DesarrolloDesarrollo computacionalcomputacional•• Accesibilidad a las herramientas de trabajo Accesibilidad a las herramientas de trabajo

(creciente comercialización de las técnicas y (creciente comercialización de las técnicas y algoritmos)algoritmos)

•• La competitividadLa competitividad

Page 6: DATA MINING decisiones

Algunas aplicacionesAlgunas aplicaciones

•• Investigación de Investigación de mercadosmercados

•• MarketingMarketing-- FidelizaciónFidelización-- Captación de clientesCaptación de clientes-- Venta cruzadaVenta cruzada

•• TelecomunicacionesTelecomunicaciones•• Compañías de segurosCompañías de seguros

•• BancaBanca-- Análisis de riesgos en Análisis de riesgos en la concesión de créditosla concesión de créditos-- Detección de uso Detección de uso fraudulento de serviciosfraudulento de servicios

•• MedicinaMedicina•• Industria Industria farmaceúticafarmaceútica•• SecuenciaciónSecuenciación del ADNdel ADN

Page 7: DATA MINING decisiones

Data Data Mining Mining Un eslabón de una cadena Un eslabón de una cadena

Transformación de los datos, medianteTransformación de los datos, mediantetécnicas Data técnicas Data MiningMining, en información , en información útil para la toma de decisionesútil para la toma de decisiones

Acción basadaAcción basadaen la informaciónen la informaciónanterior

Identificación de la Identificación de la oportunidadoportunidadde negociode negocio

anterior

Evaluación de resultados y Evaluación de resultados y búsqueda de nuevas búsqueda de nuevas oportunidades de negociooportunidades de negocio

Page 8: DATA MINING decisiones

Data Data MiningMining. ¿ La panacea ?. ¿ La panacea ?

•• Es una herramienta. No es una vara mágicaEs una herramienta. No es una vara mágica

•• Requiere conocimiento de la base de datos por Requiere conocimiento de la base de datos por parte del analistaparte del analista

•• No elimina la necesidad de conocer el negocioNo elimina la necesidad de conocer el negocio

•• Requiere entender los procedimientos y Requiere entender los procedimientos y algoritmos que se utilizanalgoritmos que se utilizan

Page 9: DATA MINING decisiones

Las fases del procesoLas fases del proceso

•• Identificación del problemaIdentificación del problema•• Construcción de una base de datos para dicho Construcción de una base de datos para dicho

problemaproblema•• Análisis exploratorio de los datosAnálisis exploratorio de los datos•• Preparación de los datos para la Preparación de los datos para la modelizaciónmodelización•• Construcción del modeloConstrucción del modelo•• Evaluación del modeloEvaluación del modelo•• Utilización del modelo en nuestro negocioUtilización del modelo en nuestro negocio

Page 10: DATA MINING decisiones

Análisis descriptivo y exploratorioAnálisis descriptivo y exploratorio(aprendizaje no supervisado)(aprendizaje no supervisado)

•• Estadísticas descriptivas Estadísticas descriptivas

•• Visualización de los datos Visualización de los datos

•• Análisis de conglomerados (Análisis de conglomerados (clustercluster))

•• Análisis de asociaciones (Análisis de asociaciones (Market Basket AnalysisMarket Basket Analysis) )

Page 11: DATA MINING decisiones

Estadísticas descriptivasEstadísticas descriptivas

•• Tablas de frecuenciasTablas de frecuencias

•• MediasMedias

•• Desviaciones típicasDesviaciones típicas

•• Coeficiente de variaciónCoeficiente de variación

•• PercentilesPercentiles

Page 12: DATA MINING decisiones

Representación gráficaRepresentación gráfica

•• Histogramas de frecuenciasHistogramas de frecuencias

•• Diagramas de cajasDiagramas de cajas

•• Diagramas de tallos y hojasDiagramas de tallos y hojas

•• Nubes de puntosNubes de puntos bidimensionalesbidimensionales y y tridimensionales (tridimensionales (scatter plotsscatter plots))

•• Representación gráfica de datos Representación gráfica de datos multivariantesmultivariantes

Page 13: DATA MINING decisiones

-20

24

-2 -1 0 1 2

05

1015

x

-0.7 -0.2 0.3 0.8V1

-1.0

-0.5

0.0

0.5

1.0

V2

Parc

Que.ile

Lav .sto

Cyt.sco

Cis.lad

Hal.umb

Jun.oxy

Thy.mas

Ros.of f

Page 14: DATA MINING decisiones

Análisis de conglomerados Análisis de conglomerados ((clustercluster))

•• Algoritmos jerárquicos Algoritmos jerárquicos aglomerativosaglomerativos-- Encadenamiento simpleEncadenamiento simple-- Encadenamiento completoEncadenamiento completo-- Método del Método del centroidecentroide-- Encadenamiento promedioEncadenamiento promedio

-- Método de Método de WardWard

•• Algoritmos jerárquicosAlgoritmos jerárquicos divisivosdivisivos•• El algoritmo KEl algoritmo K--mediasmedias

Page 15: DATA MINING decisiones

1 2

3

4 5

6 7 8

9 10

11 12

13 14

15 16

17 18 19 20

21

02

46

810

Height

Page 16: DATA MINING decisiones

Análisis de asociacionesAnálisis de asociaciones((Market Basket AnalysisMarket Basket Analysis))

•• Búsqueda de reglas que dan lugar a Búsqueda de reglas que dan lugar a asociaciones entre asociaciones entre itemsitems. .

AA BB

--Soporte de la regla = Soporte de la regla = frec frec ((A A y y B)B)

--Nivel de confianza de la regla: N.C = Nivel de confianza de la regla: N.C = frecfrec((A A y y BB)/)/frecfrec((AA))

--Una medida de la mejora de la regla es: N.C/Una medida de la mejora de la regla es: N.C/frecfrec((BB))

Page 17: DATA MINING decisiones

Análisis Análisis predictivopredictivo(aprendizaje supervisado)(aprendizaje supervisado)

•• Métodos estadísticos Métodos estadísticos multivariantesmultivariantes•• RedesRedes NeuronalesNeuronales•• Árboles de decisiónÁrboles de decisión•• MARSMARS•• kk--nearest neighbornearest neighbor•• Algoritmos GenéticosAlgoritmos Genéticos

Page 18: DATA MINING decisiones

Métodos Estadísticos Métodos Estadísticos MultivariantesMultivariantes•• Análisis discriminante (R.A. Análisis discriminante (R.A. Fisher Fisher 1936)1936)

-- Construcción de cortes que separan clasesConstrucción de cortes que separan clases-- Hipótesis del modeloHipótesis del modelo

•• Regresión linealRegresión lineal•• Regresión logísticaRegresión logística

-- TTargetarget variable binariavariable binaria-- Modelo lineal para:Modelo lineal para: loglog(P(A)/P(no A))(P(A)/P(no A))

•• Modelos Aditivos Generalizados (GAM)Modelos Aditivos Generalizados (GAM)-- Extienden los modelos de regresión a fin de captar la noExtienden los modelos de regresión a fin de captar la nolinealidadlinealidad en las variables en las variables predictoraspredictoras

Page 19: DATA MINING decisiones

RedesRedes NeuronalesNeuronales

INPUTSINPUTS OUTPUTOUTPUT

CAPA OCULTACAPA OCULTA

Page 20: DATA MINING decisiones

RedesRedes NeuronalesNeuronales

•• Cada unidadCada unidad neuronalneuronal recibe recibe unas entradas con sus unas entradas con sus respectivos pesosrespectivos pesos

•• La unidadLa unidad neuronalneuronal combina combina estas entradas y las estas entradas y las transforma mediante una transforma mediante una función de transferenciafunción de transferencia

•• El producto resultante es la El producto resultante es la salida procesada en dicha salida procesada en dicha unidad

unidad

Page 21: DATA MINING decisiones

RedesRedes NeuronalesNeuronales((feed forward Backpropagationfeed forward Backpropagation))

•• Selección de la arquitectura de la redSelección de la arquitectura de la red•• Elección del conjunto de datos de aprendizaje y de Elección del conjunto de datos de aprendizaje y de

contrastecontraste•• Entrenamiento de la redEntrenamiento de la red•• El El sobreajuste sobreajuste y la muestra de contrastey la muestra de contraste•• ValidaciónValidación

Page 22: DATA MINING decisiones

Árboles de decisiónÁrboles de decisión

A (30 casos)B(40 casos)C(30 casos)

Edad <=50

40(clase B) 30(clase A)30(clase C)

Ingresos<=2 mill

25(clase A)3(clase C)

27(clase C)5(clase A)

SI

SI

NO

NO

Page 23: DATA MINING decisiones

Árboles de decisiónÁrboles de decisión

•• Detector de interacción Detector de interacción chichi--cuadrado (CHAID)cuadrado (CHAID)-- Hartigan Hartigan (1975)(1975)

•• Árboles de clasificación y regresión (CART)Árboles de clasificación y regresión (CART)-- Leo Leo BreimanBreiman, , Jerome FriedmanJerome Friedman,, Richard OlsenRichard Olsen, , Charles Charles StoneStone (1984)(1984)

•• C4.5C4.5-- Ross Quinlan Ross Quinlan

Page 24: DATA MINING decisiones

MARSMARS

•• Soluciona los inconvenientes que presenta Soluciona los inconvenientes que presenta una segmentación con CART una segmentación con CART

•• La rigidez del corte en cada nodo queda La rigidez del corte en cada nodo queda amortiguada mediante la construcción de amortiguada mediante la construcción de cortes suaves (cortes suaves (splinessplines))

•• Los nuevos cortes no dependen de la Los nuevos cortes no dependen de la partición en los nodos anteriorespartición en los nodos anteriores

Page 25: DATA MINING decisiones

kk--nearest neighbor nearest neighbor (MBR)(MBR)

•• Elección del conjunto de Elección del conjunto de casos para el aprendizajecasos para el aprendizaje

•• Construcción de una distancia Construcción de una distancia entre observacionesentre observaciones

•• Elección del número de Elección del número de vecinos más próximosvecinos más próximos

•• Elección de una función de Elección de una función de asignación de pesosasignación de pesos

•• Clasificación de una nueva Clasificación de una nueva observación (Kobservación (K--nearest nearest neighborneighbor))

Page 26: DATA MINING decisiones

Algoritmos GenéticosAlgoritmos Genéticos

•• Emulan la evolución biológicaEmulan la evolución biológica

•• No son en sí algoritmos de búsqueda de No son en sí algoritmos de búsqueda de patrones o de síntesis de la informaciónpatrones o de síntesis de la información

•• Son algoritmos enfocados a la optimización Son algoritmos enfocados a la optimización de modelosde modelos

•• Se utilizan en apoyo de otras herramientas Se utilizan en apoyo de otras herramientas Data Data Mining Mining

Page 27: DATA MINING decisiones

Casos PrácticosCasos Prácticos

•• Estudio de los hábitos alimenticios de la Estudio de los hábitos alimenticios de la población europeapoblación europea

•• Segmentación del mercado de compañías Segmentación del mercado de compañías por sectores de actividad por sectores de actividad

Page 28: DATA MINING decisiones

Primer caso prácticoPrimer caso prácticoCCoouunnttrryy RReeddMMeeaatt WWhhiitteeMMeeaatt EEggggss MMiillkk FFiisshh CCeerreeaallss SSttaarrcchh NNuuttss FFrrVVeegg AAllbbaanniiaa 1100..11 11..44 00..55 88..99 00..22 4422..33 00..66 55..55 11..77 AAuussttrriiaa 88..99 1144..00 44..33 1199..99 22..11 2288..00 33..66 11..33 44..33 BBeellggiiuumm 1133..55 99..33 44..11 1177..55 44..55 2266..66 55..77 22..11 44..00 BBuullggaarriiaa 77..88 66..00 11..66 88..33 11..22 5566..77 11..11 33..77 44..22 CCzzeecchhoosslloovvaakkiiaa 99..77 1111..44 22..88 1122..55 22..00 3344..33 55..00 11..11 44..00 DDeennmmaarrkk 1100..66 1100..88 33..77 2255..00 99..99 2211..99 44..88 00..77 22..44 EEGGeerrmmaannyy 88..44 1111..66 33..77 1111..11 55..44 2244..66 66..55 00..88 33..66 FFiinnllaanndd 99..55 44..99 22..77 3333..77 55..88 2266..33 55..11 11..00 11..44 FFrraannccee 1188..00 99..99 33..33 1199..55 55..77 2288..11 44..88 22..44 66..55 GGrreeeeccee 1100..22 33..00 22..88 1177..66 55..99 4411..77 22..22 77..88 66..55 HHuunnggaarryy 55..33 1122..44 22..99 99..77 00..33 4400..11 44..00 55..44 44..22 IIrreellaanndd 1133..99 1100..00 44..77 2255..88 22..22 2244..00 66..22 11..66 22..99 IIttaallyy 99..00 55..11 22..99 1133..77 33..44 3366..88 22..11 44..33 66..77 NNeetthheerrllaannddss 99..55 1133..66 33..66 2233..44 22..55 2222..44 44..22 11..88 33..77 NNoorrwwaayy 99..44 44..77 22..77 2233..33 99..77 2233..00 44..66 11..66 22..77 PPoollaanndd 66..99 1100..22 22..77 1199..33 33..00 3366..11 55..99 22..00 66..66 PPoorrttuuggaall 66..22 33..77 11..11 44..99 1144..22 2277..00 55..99 44..77 77..99 RRoommaanniiaa 66..22 66..33 11..55 1111..11 11..00 4499..66 33..11 55..33 22..88 SSppaaiinn 77..11 33..44 33..11 88..66 77..00 2299..22 55..77 55..99 77..22 SSwweeddeenn 99..99 77..88 33..55 2244..77 77..55 1199..55 33..77 11..44 22..00 SSwwiittzzeerrllaanndd 1133..11 1100..11 33..11 2233..88 22..33 2255..66 22..88 22..44 44..99 UUKK 1177..44 55..77 44..77 2200..66 44..33 2244..33 44..77 33..44 33..33 UUSSSSRR 99..33 44..66 22..11 1166..66 33..00 4433..66 66..44 33..44 22..99 WWGGeerrmmaannyy 1111..44 1122..55 44..11 1188..88 33..44 1188..66 55..22 11..55 33..88 YYuuggoossllaavviiaa 44..44 55..00 11..22 99..55 00..66 5555..99 33..00 55..77 33..22

Page 29: DATA MINING decisiones

•• Los datos son una medida del consumo de Los datos son una medida del consumo de proteínas en 25 países europeos para nueve proteínas en 25 países europeos para nueve tipos de alimentostipos de alimentos

REFERENCIA:REFERENCIA: HandHand, D.J., et al.(1994) A, D.J., et al.(1994) A Handbook of SmallHandbook of Small DataData SetsSets..LondonLondon:: ChapmanChapman && HallHall, 297, 297--298298..Extraídos de Extraídos de httphttp://://liblib..statstat..cmucmu..eduedu

Page 30: DATA MINING decisiones

OBJETIVO: OBJETIVO: Análisis de los hábitos alimenticiosAnálisis de los hábitos alimenticiosde la población europea en relación con el consumo de la población europea en relación con el consumo de proteínas. Búsqueda de patrones y de proteínas. Búsqueda de patrones y similaridadessimilaridades

TÉCNICA UTILIZADA: TÉCNICA UTILIZADA: AnálisisAnálisis ClusterCluster con con encadenamiento completo y estandarización previa encadenamiento completo y estandarización previa de las variables de las variables

Page 31: DATA MINING decisiones

Conglomerados resultantesConglomerados resultantesAlbania

Austria

BelgiumBulgaria

Czechoslovakia

Denmark

EGermanyFinland

France

Greece

Hungary

IrelandItaly

Netherlands Norway

Poland

Portugal

Romania

Spain

Sweden

Switzerland

UK USSR

WGermany

Yugoslavia

24

68

Height

Page 32: DATA MINING decisiones

•• PAÍSES BALCÁNICOS Y MEDITERRÁNEOSPAÍSES BALCÁNICOS Y MEDITERRÁNEOS

Albania, Bulgaria, Albania, Bulgaria, RumaníaRumanía, Yugoslavia, Grecia e Italia, Yugoslavia, Grecia e Italia

•• PAÍSES OCCIDENTALESPAÍSES OCCIDENTALES

Austria, Holanda, Suiza, Bélgica, RFA, Irlanda, Francia y Austria, Holanda, Suiza, Bélgica, RFA, Irlanda, Francia y Reino UnidoReino Unido

•• PAÍSES ESCANDINAVOSPAÍSES ESCANDINAVOS

Dinamarca, Suecia, Noruega y FinlandiaDinamarca, Suecia, Noruega y Finlandia

•• PAÍSES DEL ESTEPAÍSES DEL ESTE

Checoslovaquia, RDA, Polonia, URSS y HungríaChecoslovaquia, RDA, Polonia, URSS y Hungría

•• PAÍSES DE LA PENÍNSULA IBÉRICAPAÍSES DE LA PENÍNSULA IBÉRICA

España y PortugalEspaña y Portugal

Page 33: DATA MINING decisiones

Segundo caso prácticoSegundo caso práctico CC oo mm pp aa ññ íí aa AA cc tt ii vv oo ss VV ee nn tt aa ss VV aa ll oo rr BB ee nn ee ff ii cc ii oo ss CC aa ss hh __ FF ll oo ww EE mm pp ll ee aa dd oo ss ss ee cc tt oo rr

AA ii rr .. PP rr oo dd uu cc tt ss 22 66 88 77 11 88 77 00 11 88 99 00 11 44 55 .. 77 33 55 22 .. 22 11 88 .. 22 00 AA ll ll ii ee dd .. SS ii gg nn aa ll 11 33 22 77 11 99 11 11 55 88 11 99 00 -- 22 77 99 .. 00 88 33 .. 00 11 44 33 .. 88 00 AA .. EE ll ee cc tt .. PP oo ww ee rr 11 33 66 22 11 44 88 44 88 44 55 77 22 44 88 55 .. 00 88 99 88 .. 99 22 33 .. 44 11 AA .. SS aa vv ii nn gg ss .. BB aa nn kk 33 66 11 44 33 66 77 99 00 11 44 .. 11 22 44 .. 66 11 .. 11 22 AA MM RR 66 44 22 55 66 11 33 11 22 44 44 88 33 44 55 .. 88 66 88 22 .. 55 44 99 .. 55 33 AA pp pp ll ee .. CC oo mm pp uu tt ee rr 11 00 22 22 11 77 55 44 11 33 77 00 77 22 .. 00 11 11 99 .. 55 44 .. 88 44 AA rr mm .. WW oo rr ll dd .. II nn dd 11 00 99 33 11 66 77 99 11 00 77 00 11 00 00 .. 99 11 66 44 .. 55 22 00 .. 88 00 BB aa ll ll yy .. MM aa nn uu ff aa cc tt 11 55 22 99 11 22 99 55 44 44 44 22 55 .. 66 11 33 77 .. 00 11 99 .. 44 00 BB aa nn kk .. SS oo uu tt hh 22 77 88 88 22 77 11 33 00 44 22 33 .. 55 22 88 .. 99 22 .. 11 22 BB ee ll ll .. AA tt ll aa nn tt ii cc 11 99 77 88 88 99 00 88 44 11 00 66 33 66 11 00 99 22 .. 99 22 55 77 66 .. 88 77 99 .. 44 33 HH .. RR .. BB ll oo cc kk 33 22 77 55 44 22 99 55 99 55 44 .. 11 77 22 .. 55 22 .. 88 22 BB rr oo oo kk ll yy nn .. UU nn .. GG aa ss 11 11 11 77 11 00 33 88 44 77 88 55 99 .. 77 99 11 .. 77 33 .. 88 11 CC aa ll ii .. FF ii rr ss tt .. BB aa nn kk 55 44 00 11 55 55 00 33 77 66 22 55 .. 66 33 77 .. 55 44 .. 11 22 CC BB II .. II nn dd uu ss tt rr ii ee ss 11 11 22 88 11 55 11 66 44 33 00 -- 44 77 .. 00 22 66 .. 77 11 33 .. 22 00 II ll .. PP uu bb ll ii cc .. SS ee rr vv 11 66 33 33 77 00 11 66 77 99 77 44 .. 33 11 33 55 .. 99 22 .. 88 11 CC ii gg nn aa 44 44 77 33 66 11 66 11 99 77 44 66 55 33 -- 77 33 22 .. 55 -- 66 55 11 .. 99 44 88 .. 55 22 CC ll ee vv .. EE ll ee cc .. II ll ll uu mm 55 66 55 11 11 22 55 44 22 00 00 22 33 11 00 .. 77 44 00 77 .. 99 66 .. 22 11 CC oo ll uu mm bb .. GG aa ss .. SS yy ss tt 55 88 33 55 44 00 55 33 11 66 00 11 -- 99 33 .. 88 11 77 33 .. 88 11 00 .. 88 11 CC oo mm mm .. PP ss yy cc hh .. CC ee nn tt 22 77 88 22 00 55 88 55 33 44 44 .. 88 55 00 .. 55 33 .. 88 00 CC oo nn tt ii .. TT ee ll ee cc oo mm 55 00 77 44 22 55 55 77 11 88 99 22 22 33 99 .. 99 55 77 88 .. 33 22 11 .. 99 33 CC rr oo ww nn .. CC oo rr kk .. SS ee aa ll 88 66 66 11 44 88 77 99 44 44 77 11 .. 77 11 11 55 .. 44 11 22 .. 66 00 DD aa yy tt oo nn .. HH uu dd ss oo nn 44 44 11 88 88 77 99 33 44 44 55 99 22 88 33 .. 66 44 55 66 .. 55 11 22 88 .. 00 00 DD ii gg ii tt aa ll .. EE qq uu ii pp 66 99 11 44 77 00 22 99 77 99 55 77 44 00 00 .. 66 77 55 44 .. 77 88 77 .. 33 44 DD ii ll ll .. DD ee pp .. SS tt oo rr ee ss 88 66 22 11 66 00 11 11 00 99 33 66 66 .. 99 11 00 66 .. 88 11 66 .. 00 00 DD rr ee yy ff uu ss 44 00 11 11 77 66 11 00 88 44 55 55 .. 66 55 77 .. 00 00 .. 77 22 EE gg .. GG 44 33 00 11 11 55 55 11 00 44 55 55 55 .. 77 77 00 .. 88 22 22 .. 55 44 EE xx .. CC ee ll ll .. OO 77 99 99 11 11 44 00 66 88 33 55 77 .. 66 88 99 .. 22 11 55 .. 44 00 FF ii rr ss tt .. AA mm ee rr ii cc aa nn 44 77 88 99 44 55 33 33 66 77 44 00 .. 22 55 11 .. 44 33 .. 00 22 FF ii rr ss tt .. EE mm pp ii .. SS tt 22 55 44 88 22 66 44 11 88 11 22 22 .. 22 22 66 .. 22 22 .. 11 22 FF ii rr ss tt .. TT ee nn nn .. NN aa tt 55 22 44 99 55 22 77 33 44 66 33 77 .. 88 55 66 .. 22 44 .. 11 22 FF ll oo rr ii dd aa .. PP rr oo gg 33 44 99 44 11 66 55 33 11 44 44 22 11 66 00 .. 99 33 22 00 .. 33 66 .. 44 11 FF rr uu ee hh aa uu ff 11 88 00 44 22 55 66 44 44 88 33 77 00 .. 55 11 66 44 .. 99 22 66 .. 66 00 GG ee nn ee rr aa ll .. EE ll ee cc tt 22 66 44 33 22 22 88 22 88 55 33 33 11 77 22 22 33 33 66 .. 00 33 55 66 22 .. 00 33 00 44 .. 00 44 GG ii aa nn tt .. FF oo oo dd 66 22 33 22 22 44 77 77 99 77 55 77 .. 00 99 33 .. 88 11 88 .. 66 00 GG rr ee aa tt .. AA PP .. TT ee aa 11 66 00 88 66 66 11 55 88 22 99 55 66 .. 11 11 33 44 .. 00 66 55 .. 00 00 HH aa ll ll ii bb uu rr tt oo nn 44 66 66 22 44 77 88 11 22 99 88 88 22 88 .. 77 33 77 11 .. 55 66 66 .. 22 00 HH ee ww ll ee tt tt .. PP aa cc kk aa rr dd 55 77 66 99 66 55 77 11 99 44 66 22 44 88 22 .. 00 77 99 22 .. 00 88 33 .. 00 44 HH oo ss pp .. CC oo rr pp .. AA mm 66 22 55 99 44 11 55 22 33 00 99 00 22 88 33 .. 77 55 22 44 .. 55 66 22 .. 00 00 II dd aa hh oo .. PP oo ww ee rr 11 66 55 44 44 55 11 77 77 99 88 44 .. 88 11 33 00 .. 44 11 .. 66 11 II BB MM 55 22 66 33 44 55 00 00 55 66 99 55 66 99 77 66 55 55 55 .. 00 99 88 77 44 .. 00 44 00 00 .. 22 44 II UU .. II nn tt ee rr nn aa tt 99 99 99 11 88 77 88 33 99 33 -- 11 77 33 .. 55 -- 11 00 88 .. 11 22 33 .. 33 33 KK aa nn .. PP oo ww .. LL ii gg hh tt 11 66 77 99 11 33 55 44 66 88 77 99 33 .. 88 11 55 44 .. 66 44 .. 66 11 KK rr oo gg ee rr 44 11 77 88 11 77 11 22 44 22 00 99 11 11 88 00 .. 88 33 99 00 .. 44 11 66 44 .. 66 00 LL ii zz .. CC ll aa ii bb oo rr nn ee 22 22 33 55 55 77 11 00 44 00 66 00 .. 66 66 33 .. 77 11 .. 99 00 LL TT VV 66 33 00 77 88 11 99 99 55 99 88 -- 77 77 11 .. 55 -- 55 22 44 .. 33 55 77 .. 55 00 MM aa rr ii nn ee .. CC oo rr pp 33 77 22 00 33 55 66 22 11 11 22 66 .. 66 33 44 .. 88 22 .. 44 22 MM aa yy .. DD ee pp .. SS tt oo rr ee ss 33 44 44 22 55 00 88 00 22 66 77 33 22 33 55 .. 44 33 66 11 .. 55 77 77 .. 33 00 MM ee ll ll oo nn .. BB aa nn kk 33 33 44 00 66 33 22 22 22 11 44 11 33 22 00 11 .. 77 22 44 66 .. 77 11 55 .. 88 22 MM ee ss aa .. PP ee tt rr oo ll ee uu mm 11 22 55 77 33 55 55 11 88 11 11 66 77 .. 55 33 00 44 .. 00 00 .. 66 11 MM oo nn tt aa nn aa .. PP oo ww ee rr 11 77 44 33 55 99 77 77 11 77 11 22 11 .. 66 11 77 22 .. 44 33 .. 55 11 NN aa tt ii oo nn aa ll .. CC ii tt yy 11 22 55 00 55 11 33 00 22 77 00 22 11 00 88 .. 44 11 33 11 .. 44 99 .. 00 22 NN CC RR 33 99 44 00 44 33 11 77 33 99 44 00 33 11 55 .. 22 55 66 66 .. 33 66 22 .. 00 44 NN oo rr ss tt aa rr .. BB aa nn cc oo rr pp 88 99 99 88 88 88 22 99 88 88 99 33 .. 00 11 11 99 .. 00 77 .. 44 22 NN oo rr ww ee ss tt 22 11 44 11 99 22 55 11 66 99 33 00 11 00 77 .. 66 11 66 44 .. 77 11 55 .. 66 22 OO ww ee nn ss .. CC oo rr nn ii nn gg .. FF 22 33 66 66 33 33 00 55 11 11 11 77 11 33 11 .. 22 22 55 66 .. 55 22 55 .. 22 00 PP aa nn .. AA mm 22 44 44 88 33 44 88 44 11 00 33 66 44 88 .. 88 22 55 77 .. 11 22 55 .. 44 33 PP ee oo pp ll ee ss .. EE nn ee rr gg yy 11 44 44 00 11 66 11 77 66 33 99 88 11 .. 77 11 22 66 .. 44 33 .. 55 11 PP hh ii ll ll ii pp ss .. PP ee tt rr oo ll 11 44 00 44 55 11 55 66 33 66 22 77 55 44 44 11 88 .. 00 11 44 66 22 .. 00 22 77 .. 33 11 PP PP GG .. II nn dd uu ss tt rr ii ee ss 44 00 88 44 44 33 44 66 33 00 22 33 33 00 22 .. 77 55 22 11 .. 77 33 77 .. 55 00 PP uu bb .. SS ee rr vv .. CC oo .. NN MM 33 00 11 00 77 44 99 11 11 22 00 11 44 66 .. 33 22 00 99 .. 22 33 .. 44 11 RR ee pp uu bb ll ii cc .. AA ii rr ll 11 22 88 66 11 77 33 44 33 66 11 66 99 .. 22 11 44 55 .. 77 11 44 .. 33 33 AA HH .. RR oo bb ii nn ss 77 00 77 77 00 66 22 77 55 66 11 .. 44 77 77 .. 88 66 .. 11 00

Page 34: DATA MINING decisiones

•• Los datos miden la actividad empresarial Los datos miden la actividad empresarial de 79 compañías procedentes de los siguientes de 79 compañías procedentes de los siguientes sectores: sectores:

1. ENERGÉTICO1. ENERGÉTICO2. FINANCIERO2. FINANCIERO3. TRANSPORTE Y COMUNICACIONES3. TRANSPORTE Y COMUNICACIONES4. TECNOLÓGICO4. TECNOLÓGICO0. OTROS SECTORES0. OTROS SECTORES

REFERENCIA:REFERENCIA: ForbesForbes, 1986. Extraídos de , 1986. Extraídos de httphttp://://liblib..statstat..cmucmu..eduedu

Page 35: DATA MINING decisiones

OBJETIVO: OBJETIVO: Análisis de la distribución Análisis de la distribución sectorial de las compañías. Segmentación del sectorial de las compañías. Segmentación del mercado de compañíasmercado de compañías

TÉCNICA UTILIZADA: TÉCNICA UTILIZADA: Clasificación Clasificación mediante un algoritmo de mediante un algoritmo de particionamientoparticionamientorecursivorecursivo (CART). (CART).

Page 36: DATA MINING decisiones

Segmentación resultanteSegmentación resultante

Page 37: DATA MINING decisiones
Page 38: DATA MINING decisiones
Page 39: DATA MINING decisiones

•• El árbol proporciona un conjunto de reglas de El árbol proporciona un conjunto de reglas de tipo binario que trocean la base de datos en tipo binario que trocean la base de datos en cajones estanco de observaciones homogéneascajones estanco de observaciones homogéneas

•• Estas reglas de Estas reglas de particionamiento particionamiento de la base de de la base de datos son el elemento básico para la prediccióndatos son el elemento básico para la predicción(clasificación de nuevas observaciones)(clasificación de nuevas observaciones)

Page 40: DATA MINING decisiones

•• PRIMER CASO PRÁCTICO PRIMER CASO PRÁCTICO Un ejemplo de aprendizaje no supervisadoUn ejemplo de aprendizaje no supervisado

•• SEGUNDO CASO PRÁCTICOSEGUNDO CASO PRÁCTICOUn ejemplo de aprendizaje supervisadoUn ejemplo de aprendizaje supervisado

Page 41: DATA MINING decisiones

Algunos productos Algunos productos Data Data MiningMining

•• IBM IBM Intelligent MinerIntelligent Miner

•• SAS SAS Enterprise MinerEnterprise Miner

•• SPSS SPSS ClementineClementine

•• CART (CART (Salford SystemsSalford Systems))

•• Answer Tree Answer Tree (SPSS)(SPSS)

Page 42: DATA MINING decisiones

Referencias BibliográficasReferencias Bibliográficas

•• HAIR. ANDERSON. TATHAM. BLACK. “ Análisis HAIR. ANDERSON. TATHAM. BLACK. “ Análisis Multivariante Multivariante “. “. PrenticePrentice Hall, 1999.Hall, 1999.

•• MICHAEL J.A. BERRY G. LINOFF. “ Data MICHAEL J.A. BERRY G. LINOFF. “ Data Mining Mining Techniques forTechniques for Marketing, Sales Marketing, Sales and Customer Support and Customer Support “. “. John Wiley John Wiley & & SonsSons, 1997., 1997.

•• ““Introduction to Introduction to Data Data Mining and Knwoledge Discovery Mining and Knwoledge Discovery “. “. Two Crows CorporationTwo Crows Corporation

•• HAND D.J. BLUNT G. KELLY M.G. ADAMS N.M. HAND D.J. BLUNT G. KELLY M.G. ADAMS N.M. “Data “Data Mining for Fun and ProfitMining for Fun and Profit “. “. StatisticalStatistical ScienceScience, , 2000.2000.

Page 43: DATA MINING decisiones

Referencias BibliográficasReferencias Bibliográficas

•• JOHNSON R.A. & WICHERN D.W. “JOHNSON R.A. & WICHERN D.W. “Applied Applied Multivariate Statistical AnalysisMultivariate Statistical Analysis”. ”. PrenticePrentice Hall.Hall.

•• BIGUS J. “Data BIGUS J. “Data Mining with Neural NetworksMining with Neural Networks”. ”. McGrawMcGraw--HillHill, 1996., 1996.

•• BREIMAN, FRIEDMAN, OLSHEN, STONE. BREIMAN, FRIEDMAN, OLSHEN, STONE. ““Classification And Regression TreesClassification And Regression Trees”. ”. ChapmanChapman & Hall, & Hall, 1993.1993.

•• FRIEDMAN J. H. " FRIEDMAN J. H. " Multivariate Adaptive Regression Multivariate Adaptive Regression SplinesSplines". ". Annals of StatisticsAnnals of Statistics, 1991., 1991.

Page 44: DATA MINING decisiones

Algunas direcciones en InternetAlgunas direcciones en Internet•• http://www.kdnuggets.http://www.kdnuggets.comcom

•• http://www.kdcentral.http://www.kdcentral.comcom

•• http://www.Recursivehttp://www.Recursive--Partitioning.Partitioning.comcom

•• httphttp://://wwwwww..twocrowstwocrows..comcom

•• httphttp://://wwwwww.data.data--minersminers..comcom

•• httphttp://://wwwwww..sassas..comcom

•• httphttp://://wwwwww..spssspss..comcom

Page 45: DATA MINING decisiones

Algunas direcciones en InternetAlgunas direcciones en Internet

•• httphttp://www://www--statstat..stanfordstanford..eduedu/~/~jhfjhf

•• httphttp://www://www--statstat..stanfordstanford..eduedu/~/~tibstibs

•• httphttp://www://www--statstat..stanfordstanford..eduedu/~/~hastiehastie

Page 46: DATA MINING decisiones

Jorge Martín Jorge Martín ArevalilloArevalilloDpto. Estadística e Investigación OperativaDpto. Estadística e Investigación OperativaFacultad de Ciencias ( UNED )Facultad de Ciencias ( UNED )Paseo Senda del Rey, nº 9. 28040 MadridPaseo Senda del Rey, nº 9. 28040 Madrid

91 398726491 3987264

jmartinjmartin@@cciaccia..uneduned.es.es