108
MINERÍA DE DATOS 21 FUNDACIÓN COTEC PARA LA INNOVACIÓN TECNOLÓGICA DOCUMENTOS COTEC SOBRE OPORTUNIDADES TECNOLÓGICAS ADE (CASTILLA Y LEÓN) ADER (LA RIOJA) AGENCIA NAVARRA DE INNOVACIÓN Y TECNOLOGÍA ALSTOM ESPAÑA ASOCIACIÓN INNOVALIA AYUNTAMIENTO DE GIJÓN AYUNTAMIENTO DE VALENCIA BILBAO BIZKAIA KUTXA CAJA DE AHORROS Y MONTE DE PIEDAD DE MADRID CAJA DE AHORROS Y PENSIONES DE BARCELONA CÁMARA DE COMERCIO E INDUSTRIA DE MADRID CLARKE, MODET & Co CONSEJERÍA DE CIENCIA Y TECNOLOGÍA (CASTILLA-LA MANCHA) CONSEJERÍA DE INNOVACIÓN, CIENCIA Y EMPRESA (JUNTA DE ANDALUCÍA) CONSULTRANS DELOITTE DIRECCIÓN GENERAL DE INVESTIGACIÓN DE LA COMUNIDAD DE MADRID DIRECCIÓN GENERAL DE INVESTIGACIÓN Y DESARROLLO (GALICIA) DMR CONSULTING EADS ASTRIUM-CRISA ELIOP ENCOPIM ENDESA ENRESA ERICSSON EUROCONTROL EUSKALTEL FREIXENET FUNDACIÓN AUNA FUNDACIÓN BANCO BILBAO VIZCAYA ARGENTARIA FUNDACIÓN BARRIÉ DE LA MAZA FUNDACIÓN CAMPOLLANO FUNDACIÓ CATALANA PER A LA RECERCA FUNDACIÓN FOCUS-ABENGOA FUNDACIÓN IBIT FUNDACIÓN LILLY FUNDACIÓN RAMÓN ARECES FUNDACIÓN UNIVERSIDAD-EMPRESA FUNDACIÓN VODAFONE FUNDECYT (EXTREMADURA) GRUPO ACS GRUPO ANTOLÍN IRAUSA GRUPO DURO FELGUERA GRUPO LECHE PASCUAL GRUPO MRS GRUPO PRISA GRUPO SPRI HIDROELÉCTRICA DEL CANTÁBRICO HISPASAT IBERDROLA IBERIA IBM IMADE IMPIVA INDRA INSTITUTO DE FOMENTO DE LA REGIÓN DE MURCIA INSTITUTO DE DESARROLLO ECONÓMICO DEL PRINCIPADO DE ASTURIAS INSTITUTO TECNOLÓGICO DE ARAGÓN INTEL CORPORATION IBERIA MERCAMADRID MERCAPITAL MIER COMUNICACIONES NECSO OHL O-KYAKU PATENTES TALGO PROEXCA REPSOL YPF SANTANDER CENTRAL HISPANO SEPES SIDSA SIEBEL SYSTEMS ESPAÑA SOCINTEC SODERCAN (CANTABRIA) TECNALIA TÉCNICAS REUNIDAS TELEFÓNICA UNIÓN FENOSA ZELTIA COTEC es una fundación de origen empresarial que tiene como misión contribuir al desarrollo del país mediante el fomento de la innovación tecnológica en la empresa y en la sociedad españolas. Cotec Fundación Cotec para la Innovación Tecnológica Pza. Marqués de Salamanca 11, 2º izda. 28006 Madrid Telf. (34) 91 436 47 74 Fax. (34) 91 431 12 39 http://www.cotec.es 9 788495 336484 ISBN 84-95336-48-0

ISBN 84-95336-48-0 FUNDACIÓN COTEC PARA LA …informecotec.es/media/N21_Mineria_Datos.pdf · empresarial que tiene como misión contribuir al desarrollo del país mediante el

Embed Size (px)

Citation preview

Page 1: ISBN 84-95336-48-0 FUNDACIÓN COTEC PARA LA …informecotec.es/media/N21_Mineria_Datos.pdf · empresarial que tiene como misión contribuir al desarrollo del país mediante el

MINERÍA

DE DATOS

21

F U N D A C I Ó N C O T E C P ARA LA INNOVAC IÓN T E CNOLÓG I CA

DOCU

MENT

OS C

OTEC

SOB

RE O

PORT

UNID

ADES

TECN

OLÓG

ICAS

ADE (CASTILLA Y LEÓN)ADER (LA RIOJA)AGENCIA NAVARRA DE INNOVACIÓNY TECNOLOGÍAALSTOM ESPAÑAASOCIACIÓN INNOVALIAAYUNTAMIENTO DE GIJÓNAYUNTAMIENTO DE VALENCIABILBAO BIZKAIA KUTXACAJA DE AHORROS Y MONTE DE PIEDADDE MADRIDCAJA DE AHORROS Y PENSIONESDE BARCELONACÁMARA DE COMERCIO E INDUSTRIADE MADRIDCLARKE, MODET & CoCONSEJERÍA DE CIENCIA Y TECNOLOGÍA(CASTILLA-LA MANCHA)CONSEJERÍA DE INNOVACIÓN, CIENCIA YEMPRESA (JUNTA DE ANDALUCÍA)CONSULTRANSDELOITTEDIRECCIÓN GENERAL DE INVESTIGACIÓNDE LA COMUNIDAD DE MADRIDDIRECCIÓN GENERAL DE INVESTIGACIÓNY DESARROLLO (GALICIA)DMR CONSULTINGEADS ASTRIUM-CRISAELIOPENCOPIMENDESAENRESAERICSSONEUROCONTROLEUSKALTELFREIXENETFUNDACIÓN AUNAFUNDACIÓN BANCO BILBAO VIZCAYAARGENTARIAFUNDACIÓN BARRIÉ DE LA MAZAFUNDACIÓN CAMPOLLANOFUNDACIÓ CATALANA PER A LA RECERCAFUNDACIÓN FOCUS-ABENGOAFUNDACIÓN IBITFUNDACIÓN LILLY

FUNDACIÓN RAMÓN ARECESFUNDACIÓN UNIVERSIDAD-EMPRESAFUNDACIÓN VODAFONEFUNDECYT (EXTREMADURA)GRUPO ACSGRUPO ANTOLÍN IRAUSAGRUPO DURO FELGUERAGRUPO LECHE PASCUALGRUPO MRSGRUPO PRISAGRUPO SPRIHIDROELÉCTRICA DEL CANTÁBRICOHISPASATIBERDROLAIBERIAIBMIMADEIMPIVAINDRAINSTITUTO DE FOMENTO DE LA REGIÓNDE MURCIAINSTITUTO DE DESARROLLO ECONÓMICODEL PRINCIPADO DE ASTURIASINSTITUTO TECNOLÓGICO DE ARAGÓNINTEL CORPORATION IBERIAMERCAMADRIDMERCAPITALMIER COMUNICACIONESNECSOOHLO-KYAKUPATENTES TALGOPROEXCAREPSOL YPFSANTANDER CENTRAL HISPANOSEPESSIDSASIEBEL SYSTEMS ESPAÑASOCINTECSODERCAN (CANTABRIA)TECNALIATÉCNICAS REUNIDASTELEFÓNICAUNIÓN FENOSAZELTIA

COTEC es una fundación de origen empresarial que tiene como misión contribuir al desarrollo del país mediante el fomento de la innovación tecnológica en la empresa y en la sociedad españolas.

CotecFundación Cotecpara la Innovación TecnológicaPza. Marqués de Salamanca 11, 2º izda.28006 MadridTelf. (34) 91 436 47 74Fax. (34) 91 431 12 39http://www.cotec.es

9 788495 336484

ISBN 84-95336-48-0

Page 2: ISBN 84-95336-48-0 FUNDACIÓN COTEC PARA LA …informecotec.es/media/N21_Mineria_Datos.pdf · empresarial que tiene como misión contribuir al desarrollo del país mediante el

DOCUMENTOS COTEC SOBRE OPORTUNIDADES TECNOLÓGICAS

21MINERÍADE DATOS

Page 3: ISBN 84-95336-48-0 FUNDACIÓN COTEC PARA LA …informecotec.es/media/N21_Mineria_Datos.pdf · empresarial que tiene como misión contribuir al desarrollo del país mediante el

Primera edición:Noviembre 2004

Depósito legal: M. 48.518-2004ISBN: 84-95336-48-0

Imprime:Gráficas Arias Montano, S.A.

Page 4: ISBN 84-95336-48-0 FUNDACIÓN COTEC PARA LA …informecotec.es/media/N21_Mineria_Datos.pdf · empresarial que tiene como misión contribuir al desarrollo del país mediante el

1. Presentación.................................................. 7

2. El valor oculto en los datos .......................... 112.1. El efecto Libro de Arena ............................ 112.2. Datos, información y conocimiento ............ 122.3. La minería de datos y su entorno ................ 15

3. Los fundamentos de la minería de datos ...... 193.1. Las funciones básicas ................................ 19

3.1.1. De donde no hay no se puede sacar .. 253.1.2. Sólo interesan las respuestas a lo que

no se sabe .................................... 263.1.3. Cada uno a lo suyo ...................... 273.1.4. No hay que meterse en lo que no te

importa ........................................ 283.1.5. Siempre se rompe la cuerda por lo

más flojo ...................................... 28

3.2. El proceso de la minería de datos .............. 293.3.1. Obtención de datos (crudos) .......... 313.3.2. Pretratamiento .............................. 313.3.3. Tratamiento (propiamente dicho) ........ 343.3.4. Interpretación ................................ 363.3.5. Aplicación .................................... 37

3.3. Algunas reflexiones .................................. 383.4. Y algunos aspectos prácticos .................... 40

4. Aplicaciones de la minería de datos ........ 434.1. Una tipología (parcial) de las aplicaciones de

la minería de datos .................................. 434.1.1. Telecomunicaciones ........................ 434.1.2. Comercio y márquetin .................... 444.1.3. Sector farmacéutico y sanitario ...... 44

3

ÍNDICE

Page 5: ISBN 84-95336-48-0 FUNDACIÓN COTEC PARA LA …informecotec.es/media/N21_Mineria_Datos.pdf · empresarial que tiene como misión contribuir al desarrollo del país mediante el

4.1.4. Sector administración pública y ser-vicios ............................................ 44

4.1.5. Sector financiero ............................ 454.1.6. Seguros ........................................ 454.1.7. Industria y gestión empresarial ........ 454.1.8. Internet/comercio electrónico/textos .. 45

4.2. Examen de algunos casos reales ................ 464.2.1. El programa «Customer First» de MCI.. 464.2.2. La reducción de costes de campañas

postales en Mellon Bank Corporation .. 484.2.3. El caso de Jubii: personalización en

comercio electrónico ...................... 504.2.4. ClearCommerce Corporation: reduc-

ción de riesgo y detección de fraudeen operaciones en Internet .............. 53

4.2.5. VISANET Brasil: detección de fraude enoperaciones con tarjetas de crédito .... 56

4.2.6. La segmentación de clientes deENDESA ...................................... 58

4.2.7. Diseñando un medicamento: el casode deCODE genetics ...................... 59

5. El estado actual de la minería de datos .... 615.1. Aspectos observados ................................ 615.2. Preferencias de uso de herramientas .......... 625.3. Ámbitos de aplicación .............................. 625.4. Preferencias de uso de técnicas .................. 635.5. Un detalle sobre la evolución de la minería

de datos .................................................. 65

6. Sobre oportunidades y obstáculos ............ 696.1. Recordando los obstáculos primarios .......... 696.2. La minería de datos «creativa» .................. 69

7. Relación de prestadores de servicios ........ 737.1. Centros de I+D+i ...................................... 73

4

Page 6: ISBN 84-95336-48-0 FUNDACIÓN COTEC PARA LA …informecotec.es/media/N21_Mineria_Datos.pdf · empresarial que tiene como misión contribuir al desarrollo del país mediante el

7.1.1. Instituto de Ingeniería del Conoci-miento (IIC) .................................. 73

7.1.2. Grupo de Tratamiento de Datos en laUniversidad Carlos III de Madrid(GTD-UCIIIM) ................................ 74

7.1.3. Grupo MIP: programación inductivamultiparadigma ............................ 74

7.2. Consultores y desarrolladores .................... 757.2.1. Daedalus .................................... 757.2.2. ISOCO, S.A. .............................. 767.2.3. Meta4 Spain, S. A. ...................... 777.2.4. Cognodata Consulting ................ 777.2.5. IONE Consulting .......................... 787.2.6. Sigma Consultores Estadísticos ...... 797.2.7. CHS Data Systems ...................... 797.2.8. Atos Origin ................................ 807.2.9. Deloitte Consulting ...................... 807.2.10. Soluziona ...................................... 817.2.11. Indra ............................................ 82

7.3. Proveedores ............................................ 827.3.1. IBM .............................................. 827.3.2. SPSS Ibérica .................................. 837.3.3. SAS ............................................ 837.3.4. The Mathworks .............................. 84

Apéndice I. Las tecnologías para (el tratamientoen) la minería de datos .................... 85

Apéndice II. Ejemplo ilustrativo del proceso de laminería de datos ............................101

Apéndice III. Solución al test perceptual de la figu-ra 1 ..............................................109

Glosario ............................................................111

5

Page 7: ISBN 84-95336-48-0 FUNDACIÓN COTEC PARA LA …informecotec.es/media/N21_Mineria_Datos.pdf · empresarial que tiene como misión contribuir al desarrollo del país mediante el

La Fundación Cotec para la innovación tecnológica tienecomo una de sus actividades permanentes, desde hacemás de doce años, resaltar aquellas oportunidades quepermitan al tejido empresarial incrementar su desarrollotecnológico, su capacidad de innovación y su competiti-vidad.

Los Documentos Cotec sobre Oportunidades Tecnológicasconstituyen una colección orientada al cumplimiento delobjetivo estratégico de actuar como motor de sensibiliza-ción a la actitud innovadora en la empresa. Estos docu-mentos se editan después de un proceso de debate paraidentificar los retos y oportunidades que ofrecen esas tec-nologías y su aplicación por las empresas, así como losbeneficios que les reportan.

Para el debate, la Fundación Cotec reúne a un cualificadogrupo de expertos empresariales, de investigadores del sis-tema público de I+D y de consultores especializados, paraque analicen las posibilidades de aplicación de esas tec-nologías o servicios, y las oportunidades que ofrecen paralos distintos sectores empresariales. En esta ocasión, se pre-senta el resultado de la sesión dedicada a la Minería dedatos, que tuvo lugar en Madrid el día 24 de junio de2004, en la sede de Cotec.

7

1PRESENTACIÓN

Page 8: ISBN 84-95336-48-0 FUNDACIÓN COTEC PARA LA …informecotec.es/media/N21_Mineria_Datos.pdf · empresarial que tiene como misión contribuir al desarrollo del país mediante el

El objetivo principal de este documento es reflexionar sobrelas técnicas y las aplicaciones de la minería de datos enEspaña y sensibilizar a las empresas sobre los beneficiospotenciales de emplearlas. El documento se centra en losfundamentos de esta tecnología, sus funciones básicas y elproceso para su utilización, describiendo posteriormenteuna serie de aplicaciones reales muy interesantes para ter-minar con una revisión del estado actual de la misma.

El equipo de expertos que participó en la sesión fue coor-dinado por los profesores Aníbal Figueiras y Ángel Naviade la Universidad Carlos III de Madrid, quienes, a su vez,prepararon el material de esta publicación. Cotec quieredejar constancia de su agradecimiento a todos ellos, sincuyo trabajo, comentarios y sugerencias este documento nohubiera sido posible.

Fundación Cotec.

8

Page 9: ISBN 84-95336-48-0 FUNDACIÓN COTEC PARA LA …informecotec.es/media/N21_Mineria_Datos.pdf · empresarial que tiene como misión contribuir al desarrollo del país mediante el

SESIÓN COTEC SOBRE MINERÍA DE DATOS

Expertos coordinadores

• Aníbal FigueirasUniversidad Carlos III de Madrid

• Ángel NaviaUniversidad Carlos III de Madrid

Expertos participantes

• Christian BlaschkeALMA Bioinformática

• José DorronsoroInstituto de Ingeniería del Conocimiento

• Francisco FreireEl Corte Inglés

• Carlos GilSAS Institute, S.A.

• Luis Méndez del RíoSAS Institute, S.A.

• Jorge NavasMinisterio del Interior

• Pablo RedondoTelefónica Móviles España

• Jorge RubioSEGITUR, S.A.

• Alfonso VenturaIndra

9

Page 10: ISBN 84-95336-48-0 FUNDACIÓN COTEC PARA LA …informecotec.es/media/N21_Mineria_Datos.pdf · empresarial que tiene como misión contribuir al desarrollo del país mediante el

2.1. EL EFECTO LIBRO DE ARENA

Según estudios de la Universidad de California en Berke-ley, la actual producción mundial de nueva información esdel orden de las decenas de exabits (1018 bits) por año. Eljustamente prestigioso investigador italiano Roberto Sarac-co cifraba hace tres años la capacidad de transmisión delas redes de telecomunicaciones en el orden de los peta-bits (1015 bits) por segundo, duplicándose anualmente.Tan insólitas cantidades dirán muy poco a la mayoría delas personas: los humanos no estamos bien preparadospara interpretar magnitudes inusuales. Mucho más ilustrati-vo resultará sin duda hacer ver que un exabit equivaleaproximadamente al contenido de un tomo de la Enciclo-pedia Británica por cada tres habitantes de la tierra, y queun petabit por segundo permitiría la transmisión de más de300 millones de canales de televisión. Pero no cabe asombrarse por tan desconcertantes equiva-lencias: la producción incluye, por ejemplo, todos los ví-deos domésticos, y por las redes viajan todos los inter-cambios de archivos digitales. Hay muchos datos: pero lainformación (útil) y el consiguiente conocimiento (efectivo)no alcanzan tales volúmenes ni crecen a semejantes tasas.Por ello, autores hay que bautizan el efecto de estos exu-berantes números con el difícil neologismo «infoxicación»,

11

2EL VALOROCULTO ENLOS DATOS

Page 11: ISBN 84-95336-48-0 FUNDACIÓN COTEC PARA LA …informecotec.es/media/N21_Mineria_Datos.pdf · empresarial que tiene como misión contribuir al desarrollo del país mediante el

induciendo a concluir que existe un dañino exceso de in-formación, con lo que se puede llegar a despreciarla. Mu-cho más afortunado parece el símil de la Biblioteca deBabel, título de un conocido cuento de Jorge Luis Borges:en un cierto espacio compuesto de innumerables habita-ciones exagonales se almacenan libros que contienen to-das las combinaciones posibles de los símbolos de la es-critura. Y todavía mejor el de El Libro de Arena, otra na-rración corta del genial argentino: habla de un libro que,como el cuerpo euclídeo de planos, consta de infinitas ho-jas. Preferible es esta segunda analogía porque, como hoyocurre, pone tal almacén al inmediato alcance de los de-dos. Las narraciones demuestran no sólo la inutilidad, sinotambién el real peligro de tamaños depósitos de escritura.Como siempre, Borges añade a una forma original e im-pecable una visión profundamente inteligente: no es lo mis-mo información que símbolos o datos. Sólo se obtiene va-lor cuando se puede —se sabe— manejar los datos.

2.2. DATOS, INFORMACIÓN Y CONOCIMIENTO

De poco ha servido hasta hoy que otro genio del pasadosiglo, Claude E. Shannon, corto tiempo después de haberpresentado una definición matemática de información, ad-virtiese en el breve artículo «The Bandwagon» de queotros campos del saber no podían valerse de una formula-ción puramente cuantitativa, para él necesaria porque suproblema era ingenieril: determinar cuánta informaciónpodía transmitirse a través de un canal de comunicacióndado, sin deteriorarla. De nada vale aún hoy la presenciade la milenaria raíz «forma» en el término información: de-mostrativa por vía etimológica de que hace muchísimotiempo que se sabe que nuestros sentidos (y sistemas per-ceptivos) precisan de estímulos del tipo adecuado. Escasa-mente útil ha sido que, imperfecta y tal vez inconsciente-

12

Page 12: ISBN 84-95336-48-0 FUNDACIÓN COTEC PARA LA …informecotec.es/media/N21_Mineria_Datos.pdf · empresarial que tiene como misión contribuir al desarrollo del país mediante el

mente, el márquetin de las compañías operadoras de Tele-comunicaciones haya desenterrado las raíces del proble-ma: cualquier cosa, en cualquier momento, en cualquier lu-gar... Un modo de reconocer que en la relevancia (ade-cuación, oportunidad, etc.) de la información para quienla obtiene o recibe está lo decisivo.Los datos no son información porque no tienen el aspectoadecuado para su asimilación por quien los recibe. E in-cluso una máquina que recibe datos para guiar su funcio-namiento no podría aprovecharlos si fuesen cualesquiera yno convenientemente estructurados. Claro que los datoscontienen información: en muchos casos valiosa, ocasio-nalmente hasta insospechada...; pero nosotros, los huma-nos, no podemos desentrañarla sin las herramientas apro-piadas. De ello hay cuantiosísimas pruebas: si el lectorbusca la ley de formación de la figura 1, empleada en testperceptivos por la Universidad de Michigan, le resultarábastante difícil; pero la dificultad decrece si se molesta encolorearla con distinto color para las casillas de cada fi-gura geométrica (ver solución en el apéndice III).

13

Figura 1Test perceptivo de la Universidad de Michigan. La sustitución de las figuras geo-métricas por dígitos o, mejor aún, por colores, facilita grandemente la percep-ción de la estructura espiral subyacente (solución disponible en el apéndice III).

Page 13: ISBN 84-95336-48-0 FUNDACIÓN COTEC PARA LA …informecotec.es/media/N21_Mineria_Datos.pdf · empresarial que tiene como misión contribuir al desarrollo del país mediante el

Y sin información no hay conocimiento. Todo lo que sabe-mos procede, directamente o tras elaboración, de lo quepercibimos a través de nuestros sentidos, en un proceso deinternalización de la información que, siguiendo a JeanPiaget, consiste en una fase de aprehensión seguida deotra de asimilación o estructuración: de puesta en contex-to con nuestros otros conocimientos y con nuestras emo-ciones (también nacidas del conocimiento), adquiriendouna organización radicalmente diferente de las computa-cionales —de ahí que aparezca el corazón («cor, cordis»)en el vocablo «recordar»—, cuya mayor utilidad está acre-ditada por la sorprendente capacidad de los humanospara controlar el entorno.Pese a tal evidencia, y al no despreciable crecimiento dela minería de datos («Data Mining») en los últimos años(en técnicas, en herramientas, en servicios y en aplicacio-nes), buena parte de quienes tienen acceso a datos im-portantes para su actividad —porque son datos de su ac-tividad— y que les posibilitarían mejorarla ayudándoles atomar decisiones que la orientasen según lo que realmenteocurre, no son conscientes de la ventaja que obtendríandel manejo de los instrumentos que le permitirían «ver» lainformación que dichos datos ocultan y llevar a cabo lasubsiguiente interpretación. Y así en todos los ámbitos: unacompañía con muchos millones de clientes necesitará demás potencia de cálculo que una con pocos miles; pero elbeneficio relativo de emplear la minería de datos no tienepor qué ser distinto. Así, pues, ha de decirse que la mine-ría de datos es potencialmente útil tanto para las grandesorganizaciones como para las pequeñas y medianas em-presas.

14

Page 14: ISBN 84-95336-48-0 FUNDACIÓN COTEC PARA LA …informecotec.es/media/N21_Mineria_Datos.pdf · empresarial que tiene como misión contribuir al desarrollo del país mediante el

2.3. LA MINERÍA DE DATOS Y SU ENTORNO

Se llama minería de datos al proceso de extraer de unabase de datos estructurada 1 la información relevante paralos propósitos del agente y —segundo y crucial paso quea veces se olvida— analizarla para interpretarla: paradarle sentido. Así se llega a adquirir conocimiento, que daventaja para la actuación fundamental de las personas (uorganizaciones): la toma de decisiones, para lo que, afor-tunadamente y por muy claras razones biológicas, sí esta-mos bien dotados... una vez que disponemos del debidoconocimiento. Lo anterior puede representarse —tomándo-se ciertas libertades simplificadoras— según el diagramade la figura 2, en el que queda claro el carácter instru-mental de la minería de datos. Y ha de insistirse, de acuer-do con lo que antecede y con la propia figura, en que setrata de un proceso: de una actividad que implica recursosmateriales y actuación de personas, y no simplemente deun sistema que procese datos.

Si bien en un pasado ya remoto, con el «mundo exterior»fraccionado en reducidas porciones poco interdependien-

15

1 Trabajar a partir de los datos contenidos en un repositorio estructuradoes lo típico a partir de mediados de la década de los ochenta: hasta en-tonces no era frecuente disponer los datos de tal modo.

Figura 1El papel de la minería de datos

Page 15: ISBN 84-95336-48-0 FUNDACIÓN COTEC PARA LA …informecotec.es/media/N21_Mineria_Datos.pdf · empresarial que tiene como misión contribuir al desarrollo del país mediante el

tes entre sí, la minería de datos tenía menor razón de ser,la masificación y, sobre todo, la globalización (recuérden-se las cifras con las que se ha abierto este capítulo) sugie-ren que hoy no es prescindible, y que mañana lo será me-nos (para los que sobrevivan, permítasenos advertir). Todaesperanza de un idílico retorno a la obtención cómoda ydirecta de información es vana: los datos numéricos y ca-tegóricos tienen su propia esencia y un rapidísimo creci-miento, y en otros casos incluso la información percibiblepor vía sensorial se digitaliza para lograr ventajas encomputación y transmisión, incrementando el provechoque podemos obtener de las máquinas al reducir la pro-babilidad de errores (nada antinatural: también nos comu-nicamos construyendo un lenguaje a partir de símbolos,los fonemas).Claro está que la «minería» no tiene por qué restringirse almanejo de datos propiamente dichos: la situación es equi-valente cuando se dispone de información directamenteasimilable, como la escrita, pero en volumen tal (o con tannumerosos objetivos) que resulta imposible examinarlapara los humanos. De ahí la aparición de la minería detextos; y, de similar manera, la emergencia de la mineríamultimedia (audio, imagen fija, vídeo, gráficos, etc.), to-davía padeciendo importantes cuellos de botella en ex-tracción de rasgos (características) e indexado, pero dedorado futuro. Ambas técnicas de minería comparten simi-litudes y referencias con la minería de datos, pero aquí nocabe extenderse en la correspondiente discusión.Como hemos dicho, se reserva el nombre de minería dedatos para los procesos que incluyen extracción de infor-mación de datos localizados en un repositorio estructurado(general, «Data Warehouse», o específico, «Data Mart»).Cuando los datos se encuentran en entornos no estructura-dos, como en la WWW, se ha dado en llamar al procesodescubrimiento del conocimiento («Knowledge Disco-very»); naturalmente asociado al caso multimedia. Muypreferible parece la denominación alternativa minería en

16

Page 16: ISBN 84-95336-48-0 FUNDACIÓN COTEC PARA LA …informecotec.es/media/N21_Mineria_Datos.pdf · empresarial que tiene como misión contribuir al desarrollo del país mediante el

la red («Web Mining»), por analogía con la minería dedatos clásica: el conocimiento no se descubre, se adquie-re en el proceso. Lo que se ha bautizado como gestión delconocimiento («Knowledge Management») supone un abu-so menor, ya que trata no sólo de aprovechar y estructurarla información disponible por y en una organización, sinoel conocimiento de las personas que la integran mediantesu explicitación o por transferencia tácita, e incluso propi-ciar la creación de conocimiento: involucrando así directa-mente a las personas (por lo que son de fundamental im-portancia los aspectos humanos en este proceso).No es propósito de este trabajo encarar la discusión de to-das estas disciplinas: excedería con mucho los límites pre-vistos, cuando no las capacidades de los autores. Pero síhacer ver que la minería de datos tiene fuertes relacionescon los otros procesos citados, y no está de más recordarque generalmente la mejor comprensión de un campo ylos mayores avances en él provienen del examen de sucontexto y convenientes extrapolaciones: casi todos losavances relevantes, desde los de las ciencias básicas has-ta las aplicaciones tecnológicas, provienen de ensayaraproximaciones acreditadas en otras áreas y adecuada-mente modificadas de acuerdo con un buen conocimientodel caso particular bajo análisis, que es lo que ocurre tam-bién en la minería de datos. Por ello resulta recomendableque quienes desempeñen tareas relacionadas con la mine-ría de datos no dejen de interesarse por las otras mineríasaquí presentadas.

17

Page 17: ISBN 84-95336-48-0 FUNDACIÓN COTEC PARA LA …informecotec.es/media/N21_Mineria_Datos.pdf · empresarial que tiene como misión contribuir al desarrollo del país mediante el

3.1. LAS FUNCIONES BÁSICAS

Debe de resaltarse, como comienzo, que la minería de da-tos es un recurso para un objetivo de negocio, para cuyaconsecución sería importante conocer respuestas a pre-guntas que ni siquiera se sabe formular (en caso contrario,puede recurrirse a lo que se denomina procesado analíti-co «On Line» («On Line Analytical Processing», OLAP).Pero, aun así, resulta esclarecedor presentar el procesocomo un conjunto de respuestas.Los datos que se manejan en los procesos de minería, tam-bién conocidos como observaciones, instancias, muestras oejemplos, son una colección de vectores de variables o ras-gos; vectores en muchos casos etiquetados en su totalidad oen parte: es decir, incluyen la respuesta a una pregunta a laque el que los maneja desea contestación. Tales instancias(etiquetadas) se han obtenido como resultado de registrar loacontecido en previas experiencias o experimentos, y sonanálogas a aquellas a las que se va a aplicar un diseño ob-tenido durante el proceso de minería: el de una función quehace corresponder a cada vector de variables observablesuna de las repuestas posibles, su (desconocida) etiqueta.2

19

3LOS FUNDAMENTOSDE LA MINERÍADE DATOS

2 Esta formulación, conocida como predictiva, ya que sirve para darrespuestas ante situaciones en las que no se conocen, es la de mayor in-

Page 18: ISBN 84-95336-48-0 FUNDACIÓN COTEC PARA LA …informecotec.es/media/N21_Mineria_Datos.pdf · empresarial que tiene como misión contribuir al desarrollo del país mediante el

Así, en el caso de concesión de un crédito o préstamo, losdatos etiquetados corresponden a clientes que lo han solici-tado en el pasado, incluyendo típicamente variables de tiposociodemográfico (edad, situación familiar, antigüedad en elempleo, ingresos, etc.), de relación económica con el otor-gante (saldo medio y antigüedad de cuentas, otros instru-mentos financieros, etc.) y de la propia operación (objeto,importe, etc.), con la etiqueta de morosidad o no (obsérveseque hay un efecto de recorte: no hay etiqueta para los casosdenegados).Las preguntas cuya contestación se pretende (para los nue-vos casos que se presenten) no difieren en nada de las ha-bituales que una persona se hace continuamente: ¿sucedeo va a suceder algo?; ¿qué?; ¿por acción de quiénes?; ¿aquiénes?; ¿cuánto?; ¿cuándo?... Por tanto, nos encontra-mos sistemáticamente con problemas de tipos básicosiguales: detección de un cierto suceso, como ocurre encontrol de fraude; clasificación de un caso, como en seg-mentación de mercados (que, eventualmente, puede con-venir llevar a cabo mediante un previo agrupamiento, o«clustering», si no se dispone de etiquetas: para un subsi-guiente etiquetado de los grupos a través de la explora-ción de algunos de sus representantes); decisión sobre quéopción elegir entre varias posibles (que, ocasionalmente,toma la muy particular forma de la asociación, como la deproductos de venta conjunta más frecuente en el análisisde cestas de compra: un problema de decisión peculiarque se resuelve mediante métodos estadísticos elementa-les); estimación de una cierta magnitud, como el riesgo oel beneficio esperado de una operación, lo que recibe elnombre de predicción cuando se trata de valores futuros.

20

terés. La formulación exploratoria, en la que se manejan los datos para con-cluir si existen relaciones entre ellos, es también posible: pero, en cierto sen-tido, menos relevante. En esta segunda formulación pueden incluirse, porejemplo, los procesos de agrupamiento o segmentación y los de estableci-miento de relaciones y su análisis.

Page 19: ISBN 84-95336-48-0 FUNDACIÓN COTEC PARA LA …informecotec.es/media/N21_Mineria_Datos.pdf · empresarial que tiene como misión contribuir al desarrollo del país mediante el

Tal complejidad aparente se reduce conceptualmente asólo dos tipos de problemas: los de detección/clasifica-ción/decisión, en los que hay que optar por una entre unconjunto discreto de alternativas (hay/no hay, clase A,B..., o Z, sí/no...), que suelen denominarse hipótesis, y losde estimación (predicción), en los que hay que atribuir unvalor a una magnitud que no se puede observar directa-mente. Pero antes de presentar la visión abstracta de estos pro-blemas, y para facilitar al lector la identificación de casosreales con ellos, ilustraremos ambos tipos conceptuales me-diante ejemplos sencillos.La concesión de préstamos y créditos es una de las activi-dades tradicionales de muchas entidades financieras. Es-tas disponen de datos sobre operaciones pasadas simila-res de las que conocen el resultado (morosidad o no): laque se llama «etiqueta» de los ejemplos conocidos. Cadacaso incluye una larga lista de variables de diversos tipos(características de la propia operación: importe, plazo,objeto, etc.; datos sociodemográficos sobre el solicitante:profesión y antigüedad en ella, ingresos anuales, propie-dades...) y datos de tipo financiero procedentes de la pro-pia entidad o de otras (cuentas y su antigüedad y saldosmedios, tarjetas de crédito, historial de operaciones ante-riores similares...). A partir de este tipo de datos ha de realizarse una decisión para los nuevos solicitantes: con-ceder o no el préstamo o crédito. Para disponer de unaayuda para la toma de esta decisión ha de recurrirse a ex-traer de la base de datos etiquetados de que se dispone lainformación necesaria para maximizar el beneficio delproceso (no necesariamente la probabilidad de acierto).Un problema de la misma familia es el constituido por losprocesos de detección de fraude: en operaciones con tar-jetas de débito o de crédito, en la utilización de serviciosde telefonía, etc. En estos casos se dispone también de da-tos etiquetados, correspondientes a casos de fraude y nofraudulentos, y que incluyen como variables también datos

21

Page 20: ISBN 84-95336-48-0 FUNDACIÓN COTEC PARA LA …informecotec.es/media/N21_Mineria_Datos.pdf · empresarial que tiene como misión contribuir al desarrollo del país mediante el

sociodemográficos del usuario y el historial previo de utili-zación de la tarjeta o del servicio. De nuevo se trata, en lobásico, de un problema del primer tipo conceptual: detec-tar (y, la mayoría de las veces, a tiempo) la aparición decasos de fraude.En esta categoría entran también muchos de los problemasde fidelización de clientes: desde la previsión de bajas detomadores de una cierta clase de pólizas en el ámbito delos seguros, hasta los estudios de rotación («churn»: pasode los clientes de un proveedor a otro) en compañías deservicios, como los de telecomunicaciones. Dado que másadelante, en el capítulo 4 dedicado a aplicaciones de laminería de datos, se describe en detalle, entre otros, unejemplo real (el programa «Customer First» de MCI), remi-timos al lector a ese lugar para una primera visión de estafamilia de problemas.No menos abundantes son los problemas de estimación:aunque es bien cierto que, generalmente, se trata de pro-cesos cuya utilidad se halla en una posterior toma de de-cisiones. Así, puede tratarse de predecir el volumen deventas de un cierto producto a partir de datos de mercadopasados y de acciones esperadas de la competencia (nor-malmente para decidir qué acciones se han de tomar: enpublicidad y márquetin, ventas, innovación, sustitución...);otro ejemplo, que se puede abordar con técnicas sencillas,es la estimación de cifras de ventas conjuntas de pares ogrupos de productos: el ejemplo más conocido es el de lacesta de la compra en supermercados/hipermercados,que es posible mediante un simple conteo de pares en ti-ques de caja, y que en los Estados Unidos hizo conocer yahace años el (en apariencia) sorprendente resultado deque pañales y latas de cerveza constituían un par de ad-quisición conjunta muy frecuente (sin que ello implique quelo mismo ocurra en otros lugares... ni en otros momentos).Este proceso de estimación puede utilizarse, por ejemplo,para orientar en la política de colocación de productos enlas estanterías.

22

Page 21: ISBN 84-95336-48-0 FUNDACIÓN COTEC PARA LA …informecotec.es/media/N21_Mineria_Datos.pdf · empresarial que tiene como misión contribuir al desarrollo del país mediante el

Que los procesos de decisión y estimación se realicen si-multáneamente no es infrecuente: muchas veces se deseaen una decisión estimar la probabilidad de acierto; porejemplo, la probabilidad de morosidad en concesión depréstamos o créditos. En tal caso, se habla de decisión (oclasificación) puntuada o cualificada. También es posiblesuperponer un umbral para tomar decisiones en proble-mas de estimación: como mantener o no un producto enel mercado según se supere o un cierto nivel de bene-ficios. Las figuras 3 y 4 representan lo esencial de tales proble-mas: los datos de que se dispone están relacionados esta-dísticamente 3 con las hipótesis o el parámetro que se va-yan a estimar y, a partir del conjunto de datos etiquetadode que se dispone, ha de diseñarse el decisor o el estima-dor: como se ha dicho, una función que hace corresponderal dato genérico x una decisión Di o un valor estimado s.

23

3 En otros ámbitos, la relación viene dada por una transición probabilísti-ca que tiene lugar en el mundo físico, como cuando se observa una señalelectromagnética perturbada por un ruido. Si es así y se conocen las leyesfísicas correspondientes, pueden construirse soluciones analíticamente, recu-rriendo sobre todo a la teoría bayesiana. Aunque todo esto es totalmente in-habitual en minería de datos, donde hay un conocimiento escaso y muy di-fuso de lo que realmente está ocurriendo, nos permitimos recomendar a losprofesionales que no lo olviden, ya que permite utilizar conceptos útiles y di-señar soluciones indirectas (mediante modelado) e híbridas.

Figura 3Visión estructural del problema de clasificación (decisión)

Page 22: ISBN 84-95336-48-0 FUNDACIÓN COTEC PARA LA …informecotec.es/media/N21_Mineria_Datos.pdf · empresarial que tiene como misión contribuir al desarrollo del país mediante el

El caso del agrupamiento es análogo al de clasificación enel sentido de que su resultado es el establecimiento de gru-pos como lo es el de clases en clasificación: pero en agru-pamiento se sustituye el papel de las etiquetas por la ma-ximización de un adecuado, o al menos razonable, crite-rio de semejanza entre los datos que compongan cadagrupo.El agrupamiento, que en ciertos ámbitos se denomina seg-mentación, ofrece como resultado un conjunto de gruposde muestras semejantes (según el criterio empleado), y enmuchas ocasiones con un representante o prototipo decada grupo. Se emplea mayoritariamente en procesos ex-ploratorios: es más fácil evaluar conjeturas cuando se tra-baja con un número reducido de prototipos que cuando seha de considerar una muy elevada cantidad de ejemplos.La representación por prototipos también permite llevar acabo diseños preliminares orientativos para los procesosde clasificación y de estimación. Y la segmentación resultamuy ventajosa cuando, para obtener etiquetas, hace faltarecurrir a la experimentación: así, si se quiere dirigir unacampaña de márquetin por correo a una población muynumerosa, y no se tiene un criterio fiable de qué parte deesa población es objetivo (puede estar interesada) en laoferta, proceder a una razonable segmentación previa yllevar a cabo un test reducido, dirigiéndose a unos pocos

24

Figura 4Visión estructural del problema de estimación

Page 23: ISBN 84-95336-48-0 FUNDACIÓN COTEC PARA LA …informecotec.es/media/N21_Mineria_Datos.pdf · empresarial que tiene como misión contribuir al desarrollo del país mediante el

individuos de cada segmento y etiquetando después lossegmentos según los resultados (con posibles revisiones dela segmentación), permite reducir notablemente el coste dela campaña sin que decrezca apreciablemente su alcance.Ya desde este momento inicial, una vez que se sabe cuá-les son sus funciones básicas, resulta procedente discutiruna primera serie de dificultades en la aplicación de la mi-nería de datos: curiosamente, pese a su carácter no técni-co, son la causa de un porcentaje muy alto de fracasos.

3.1.1. De donde no hay no se puede sacar

Los datos sólo pueden proporcionar la información quehay en ellos: ni un ápice más. De modo que han de con-siderarse esenciales, sobre todo por parte de las organi-zaciones que desean obtener ventaja de la minería de da-tos:

● la obtención de un conjunto de datos (etiquetados) parael diseño que sea representativo del problema que sedesea resolver: es decir, en número suficiente; o inclusomás que suficiente, en caso de duda;

● la cuidadosa selección de las variables que integran di-chos datos o la extracción de las características o ras-gos apropiados para los ejemplos, en caso de gozarde tal posibilidad (independientemente de la posteriorselección que pueda incluirse en el propio proceso deminería).

Disponer de ejemplos suficientes y de calidad (lo que im-plica la extrema importancia de las tareas de «limpieza»de los datos disponibles en bruto: imputación de valoresperdidos, eliminación de muestras fuera de margen, etc.)constituye una necesidad insoslayable para el éxito decualquier aplicación de la minería de datos: a la vista deesa disponibilidad se puede decidir si merece la pena ini-ciar el proceso o si, por el contrario, lo que conviene es re-

25

Page 24: ISBN 84-95336-48-0 FUNDACIÓN COTEC PARA LA …informecotec.es/media/N21_Mineria_Datos.pdf · empresarial que tiene como misión contribuir al desarrollo del país mediante el

colectar más datos. Para ello, y además de las caracterís-ticas del problema (p. ej., frecuencia y dispersión del su-ceso a detectar), resulta de la máxima utilidad la consi-deración de precedentes (comparables): que también pue-de arrojar luz sobre otros aspectos del trabajo, como laelección de las técnicas algorítmicas para el tratamientode datos, las herramientas de «software», o las platafor-mas computacionales («hardware») en que llevar a cabo elproceso.Nótese que lo que precede no implica en absoluto que seapreciso disponer de una ingente cantidad de ejemplospara aplicar la minería de datos: basta un conjunto que re-presente fielmente el problema que se quiere considerar.

3.1.2. Sólo interesan las respuestas a lo que nose sabe

Expresado de otro modo: de nada vale que el sistema di-señado, y particularmente el decisor o estimador, repliqueperfectamente las etiquetas de los datos empleados parael diseño, pues para eso bastaría con una mera memori-zación. Lo verdaderamente importante es lo que se cono-ce como generalización (o poder predictivo): la capaci-dad de proporcionar buenas respuestas (según el criteriode bondad que se decida aplicar) para los casos que sedesea clasificar en la aplicación verdaderamente dichadel sistema diseñado. Tal característica ha de merecer lamayor atención de los diseñadores si quieren que su tra-bajo aporte la pretendida utilidad para los usuarios y susclientes.El estudio de la generalización no resulta sencillo, ni mu-chísimo menos: depende de (además del problema) losdatos, la estructura elegida para el decisor o el estimador,el criterio de calidad que se aplique y del modo de llevara cabo el diseño. Hay numerosos procedimientos analíti-cos y heurísticos para conseguir una buena generaliza-

26

Page 25: ISBN 84-95336-48-0 FUNDACIÓN COTEC PARA LA …informecotec.es/media/N21_Mineria_Datos.pdf · empresarial que tiene como misión contribuir al desarrollo del país mediante el

ción, pero su exposición excede del ámbito de estas pá-ginas.También aquí son de importancia los factores humanos...Recurriremos ahora a frases comunes que se refieren a di-ficultades habituales.

3.1.3. Cada uno a lo suyo

Es lo que, consciente o inadvertidamente, dicen algunosexpertos en el asunto o aspecto del negocio en que sepuede aplicar la minería de datos: postulan así que, comotales expertos, se bastan ellos solos para obtener la nece-saria información de los datos. Tal posición no es más quela consecuencia de un temor comprensible pero infunda-do: que el sistema se convierta en un rival que pueda des-plazarlo... cuando en realidad, como ya se ha dicho, es-taría disponiendo de un instrumento que potenciaría su ac-tividad. Con ello, se pierde la posibilidad de un mejordiseño contando con el conocimiento del experto: demodo que, si el sistema llega a aplicarse, el experto ha lo-grado... perjudicarse a sí mismo. A veces, simplemente se trata de que el experto no quiererealizar el esfuerzo que representa conocer, y aplicar,pero sobre todo interpretar, los resultados del sistema deMinería. Posteriormente discutiremos en mayor detalle estarenuencia: pero es obvio, como en el caso anterior, que elexperto no percibe como incentivo las ventajas que el usodel sistema le puede dar. Si bien en el pecado tendrá lapenitencia, conviene que los más altos responsables de laorganización primen directamente tal esfuerzo, para pro-piciar que la posterior emergencia de las ventajas acabede convencer al experto.Con lo anterior, se aprecia que el real sentido de «cadauno a lo suyo» es justamente el contrario del aparente aprimera vista: el experto, a actuar como tal, y la mineríade datos, a servirle de ayuda.

27

Page 26: ISBN 84-95336-48-0 FUNDACIÓN COTEC PARA LA …informecotec.es/media/N21_Mineria_Datos.pdf · empresarial que tiene como misión contribuir al desarrollo del país mediante el

3.1.4. No hay que meterse en lo que no teimporta

La anterior es la frase popular más ajustada que hemos en-contrado para referirnos al rechazo inicial que se produceen un muy elevado porcentaje de los clientes de la orga-nización que pretende aplicar la minería de datos cuandolos datos son personales. Otra vez se trata de un miedo yde una falta de percepción del potencial beneficio.El miedo es claro: se teme que los datos puedan emplear-se para objetivos completamente distintos de los espera-bles de la situación en la que se proporcionan. Las legis-laciones ya se han ocupado de ello: respetarlas más queescrupulosamente es el único camino para el beneficio detodos.Beneficio que muchas veces el cliente cuyos datos se ma-nejan no alcanza a prever: hacerle comprender que existey demostrárselo tan rápida y sólidamente como se puedasirve para ganarse lo que resulta esencial, que es no sólosu anuencia, sino su activa cooperación a lo largo deltiempo.Y, finalmente, en lo que se refiere a los técnicos:

3.1.5. Siempre se rompe la cuerda por lo másflojo

Los diseñadores no avezados suelen incurrir en el graveerror de dedicar todo su esfuerzo al elemento aparente-mente nuclear de la minería de datos —el clasificador o el estimador—, olvidando con ello dos cuestiones funda-mentales.La primera es que el experto ha de poder valerse del sis-tema para tomar sus decisiones o hacer sus recomen-daciones: y para ello necesita interpretar los resultados.Facilitárselo con diseños tan sencillos como sea posible, einclusive con ayudas específicas, tiene también una impor-

28

Page 27: ISBN 84-95336-48-0 FUNDACIÓN COTEC PARA LA …informecotec.es/media/N21_Mineria_Datos.pdf · empresarial que tiene como misión contribuir al desarrollo del país mediante el

tancia crucial (lo que no implica liberar al experto de todoesfuerzo mediante diseños inapropiadamente sencillos: delpunto de equilibrio hablaremos más adelante).Segunda cosa olvidada: la minería de datos es un proce-so; es decir, en lo esencial, es una sucesión de pasos. Porello, la calidad del resultado queda limitada por la calidaddel peor paso… y pasos hay muchos; de modo que hayque cuidar no los más delicados, sino todos ellos.En virtud de esta razón, se opta aquí por invertir el habi-tual orden de presentación de los documentos que versansobre la minería de datos: expondremos primeramente elproceso global de minería, incluyendo ciertas observa-ciones y advertencias sobre el mismo, para pasar des-pués a las técnicas (que hacen referencia al núcleo com-putacional del proceso, el clasificador o estimador), demodo que la sombra de estas técnicas no obscurezca losdemás aspectos.

3.2. EL PROCESO DE LA MINERÍA DE DATOS

La figura 5 presenta un esquema (simplificado) de los pa-sos que conforman un proceso aplicativo de minería dedatos, mediante el que se busca información relevantepara un aspecto del negocio claramente definido. En estafigura nos apoyaremos para la explicación de dicho pro-ceso, pero desde el principio advertiremos que, típicamen-te, se hace preciso recorrer bucles varias veces: es decir,volver atrás y repetir una parte del camino. La necesidadde hacerlo sólo se pone abiertamente de manifiesto en lasetapas en las que se intenta comprender o se comprendelo que se está obteniendo: es decir, las etapas que hemosdenominado «conjeturas», donde a la vista de resultados(provisionales) del diseño y su análisis se pueden aventurarhipótesis sobre el problema que se está tratando, y «cono-cimiento», donde los resultados y el análisis de la efectivaaplicación del diseño arrojarán nueva luz sobre el proble-

29

Page 28: ISBN 84-95336-48-0 FUNDACIÓN COTEC PARA LA …informecotec.es/media/N21_Mineria_Datos.pdf · empresarial que tiene como misión contribuir al desarrollo del país mediante el

ma. Por eso marcamos en la figura con flechas hacia atrásdichas etapas: de lo que en ellas se interprete se deduci-rán modificaciones potencialmente ventajosas de lo ejecu-tado en etapas anteriores, marcadas en la figura con fle-chas de llegada o entrantes, y así se configurarán buclesrazonables y provechosos, evitando caer en un caos deavances y retrocesos. Cabe añadir que es regla sensataactuar, al trazar un bucle, primero sobre las etapas máscercanas al origen, si lo requieren. Esta explicación es fun-damentalmente conceptual y, como tal, reducida: existenpropuestas más detalladas de estandarización de metodo-logías de implantación de sistemas de minería de datos,como la denominada CRISP-DM 4 que, fruto de un proyec-to «ESPRIT» financiado por la Comunidad Europea, agluti-na los procesos de descubrimiento del conocimiento habi-tualmente usados en la industria y los actualiza en funciónde las necesidades de los usuarios finales hasta conseguirdefinir y validar una metodología a seguir en cualquieraplicación comercial de la minería de datos.

30

4 Cross Industry Standard Process for Data Mining, http://www.crisp-dw.org.

Figura 5El proceso de minería de datos

Page 29: ISBN 84-95336-48-0 FUNDACIÓN COTEC PARA LA …informecotec.es/media/N21_Mineria_Datos.pdf · empresarial que tiene como misión contribuir al desarrollo del país mediante el

3.2.1. Obtención de datos (crudos)

De la importancia clave de los datos y de su calidad ya seha hecho mención («De donde no hay…»): consecuente-mente, ha de cuidarse su obtención (o la extracción de ras-gos); lo que requiere una buena política de acceso a las co-rrespondientes fuentes: que pueden incluir variables diferen-tes o ser heterogéneas en otros muchos sentidos (p. ej., encuanto a su tipo: numéricas, categóricas, semánticas...),pero han de merecer un justificado crédito. El acceso direc-to mediante telecomunicaciones a al menos algunas de estasfuentes puede resultar crítica para ciertas aplicaciones, comopor ejemplo la predicción en operaciones en tiempo real.Los datos crudos han de almacenarse: el hecho de que sesometan a un pretratamiento para buscar una mejora delas prestaciones del proceso de minería no debe llevar asu destrucción, porque los datos pretratados pueden ha-berlo sido de muy diversas formas, pocas veces invertibles,y en cualquier momento es posible que se evidencie laconveniencia de sustituirlos por los resultantes de otro pre-tratamiento. Por ejemplo: puede ensayarse el empleo delcociente entre dos variables en lugar de éstas, pero esasdos variables han de conservarse para posibilitar que, sise sospecha que sería mejor elevar el numerador al cua-drado, pueda hacerse. Obviamente, recurrir a un buen sis-tema de almacenamiento («Data Warehouse») facilita elaseguramiento de la calidad de los datos y su procesa-miento ordinario.

3.3.2. Pretratamiento

Confiar en que el adecuado diseño de un clasificador oestimador que actúe sobre los datos crudos va a propor-cionar resultados óptimos, buenos, o al menos satisfacto-rios en el proceso de minería supondría aceptar, de entra-da, un absurdo principio que ya se ha criticado con ante-

31

Page 30: ISBN 84-95336-48-0 FUNDACIÓN COTEC PARA LA …informecotec.es/media/N21_Mineria_Datos.pdf · empresarial que tiene como misión contribuir al desarrollo del país mediante el

rioridad: que se presenten como se presenten las cosas,con suficiente «potencia de cómputo» será posible extraersu contenido informacional. Tal vez cabría pensar así si sedispusiese de prácticamente ilimitadas cantidades de ejem-plos: pero eso no ocurre casi nunca, y, en todo caso, im-plicaría un también ilimitado crecimiento de recursos com-putacionales. De modo que no es habitual proceder así,sino ensayar transformaciones que la experiencia dice quepueden resultar convenientes. Además, los expertos suelensaber (al menos cualitativamente) en qué forma intervienenal menos algunas de las variables.Así, pues, ha de considerarse que un pretratamiento de losdatos antes de presentarlos al clasificador o estimadorconstituye un paso importante en la minería de datos. Dehecho, cabe decir que una máquina elemental (p. ej., li-neal) sería suficiente para resolver cualquier problema silos datos crudos se transformasen adecuadamente, ya quees posible demostrar que así se puede construir una má-quina (en el sentido de algoritmo) aproximadora universal. Hay dos circunstancias que hacen del pretratamiento unaetapa delicada en la práctica:

● no existen indicaciones a priori de cómo proceder (sal-vo las provistas por el conocimiento experto);

● cualquier desafortunada destrucción de información enel preprocesado de los datos es irreparable en el restode proceso.

De modo que hay que comportarse con extrema cautela,procurando no eliminar ningún contenido que no puedaconsiderarse con certeza como «ruido» (es decir, comoirrelevante para el problema que hay que resolver). Aparte de recurrir al conocimiento de los expertos, existeun catálogo de operaciones que pueden ser adecuadas enmuchas ocasiones, entre las que cabe destacar:

● Las que constituyen lo que se conoce como limpieza omaquillado de los datos (¡no de los resultados!); como

32

Page 31: ISBN 84-95336-48-0 FUNDACIÓN COTEC PARA LA …informecotec.es/media/N21_Mineria_Datos.pdf · empresarial que tiene como misión contribuir al desarrollo del país mediante el

pueden ser la eliminación de valores manifiestamenteerróneos o fuera de márgenes, la imputación de valoresausentes en algunos registros, el etiquetado de muestrassin etiqueta, etc.

● Las que componen los métodos de reducción: elimina-ción de variables, crudas o transformadas, irrelevanteso redundantes, o de muestras sin influencia sobre los re-sultados (muestras «no críticas»).

● Las técnicas de remuestreo, o creación de nuevas po-blaciones, de las que hay muchos casos particularescon diversos propósitos: así, puede procederse a enfa-tizar —aumentar la frecuencia de aparición— muestrasde carácter crítico —de clasificación poco clara— paraque tengan mayor peso en el diseño, y mejorar la se-parabilidad de las diversas clases.

● Las técnicas de reconfiguración de los datos: transfor-mando las muestras lineal o no linealmente, o aplican-do codificaciones con el fin de resaltar la informaciónmás relevante para la resolución del problema.

Con todas estas operaciones pueden asociarse procedi-mientos analíticos (cálculo de estadísticas, relevancias, etc.),además de heurísticos.Descender a un mayor detalle en esta taxonomía requeri-ría cientos de páginas: a falta de ellas, hemos de decirque hay muchas fuentes no despreciables de técnicas de pretratamiento en estadística clásica, tratamiento deseñales, etc. Su conocimiento y utilización no está demás, aunque su adecuada elección, que muchas vecesabre el camino al éxito, es más una cuestión de arte quede técnica analítica.Debe aclararse, por último, que es casi siempre innecesa-rio recurrir a la totalidad de los datos disponibles para lle-var a cabo un proceso aplicativo de minería de datos:basta con una conveniente muestra para el diseño (sepa-rable en submuestras de entrenamiento y de validación) yotra para evaluación o test. Bien es cierto que habrá que

33

Page 32: ISBN 84-95336-48-0 FUNDACIÓN COTEC PARA LA …informecotec.es/media/N21_Mineria_Datos.pdf · empresarial que tiene como misión contribuir al desarrollo del país mediante el

vigilar el funcionamiento para muestras que se obtengantras haber implementado el diseño.

3.3.3. Tratamiento (propiamente dicho)

Se llama así a la aplicación del decisor o del estimadorque se diseñe sobre los datos preparados por el pretrata-miento; obteniendo una salida por cada nueva instanciaque se presente. Obviamente, se trata de un paso clave enel proceso de minería, por lo que nos detendremos unpoco en él. Como ya se ha dicho, en las situaciones típicas de mineríade datos no hay o no se dispone de un modelo físico sub-yacente, por lo que no cabe aplicar directamente técnicasanalíticas para el diseño. Sí es posible recurrir a las técni-cas semianalíticas, en las que, a partir de datos etiqueta-dos (datos para los que se conoce, por haberla observa-do, la decisión o el valor a estimar correspondiente), se es-tima la información estadística precisa para aplicar unatécnica analítica: probabilidades o densidades de proba-bilidad. Estas técnicas semianalíticas son delicadas, por re-querirse como proceso adicional la estimación de informa-ción estadística; y, en todo caso, subóptimas, ya que dichaestimación se realiza de un modo que no va dirigido a ob-tener una buena solución del problema bajo análisis. Lastécnicas o «métodos máquina», que se presentan a conti-nuación, solventan el segundo inconveniente, ya que todosu diseño se encamina a obtener una buena solución, y,en muchas ocasiones, reducen la importancia del primero.Los métodos máquina son, en realidad, algoritmos quetransforman un dato, un vector x cuyos elementos son losvalores de las variables que corresponden a un ciertocaso, en una salida o que aproxima la decisión que se hade tomar o el valor que se debe estimar, y que se obtieneaplicando una función F (de valores discretos, para deci-sión) o f (de valores continuos, para estimación), función

34

Page 33: ISBN 84-95336-48-0 FUNDACIÓN COTEC PARA LA …informecotec.es/media/N21_Mineria_Datos.pdf · empresarial que tiene como misión contribuir al desarrollo del país mediante el

que depende de un conjunto de parámetros o pesos w:así, p.ej., F puede ser el signo de una combinación linealde las variables de x, o lo que es lo mismoF = sgn (w0+w1x1+...+wnxN).

Los parámetros de la máquina, w, se determinan aplican-do los datos etiquetados a su entrada y forzar, buscandovalores para ellos, que las correspondientes salidas se pa-rezcan a las etiquetas, lo que se consigue midiendo el pa-recido mediante una adecuada función de coste, de papelanálogo a las empleadas en los métodos analíticos. Hayque insistir en que el objetivo de este proceso no es con-seguir el mayor parecido posible, sino que la máquina«aprenda» o «quede entrenada» para funcionar con bue-na generalización: respuestas satisfactorias ante los nue-vos datos que se pretende clasificar en la aplicación prác-tica del diseño. Los procedimientos de búsqueda emplea-dos pueden consultarse en infinidad de textos dedicadosal tema, o bien de decisión y estimación, e incluso de mi-nería de datos: no podemos detenernos aquí en su pre-sentación y discusión.Hay muchos tipos de máquinas: como quiera que revisar-los en la parte principal de este texto dificultaría su lectu-ra, pero también es verdad que conocer sus característicasfundamentales resulta importante para muchos interesados,hemos decidido dedicar un anexo a una somera presenta-ción de los principales, seguida de una exposición de susventajas e inconvenientes, y una brevísima indicación delas tendencias que consideramos más prometedoras. Porcompletitud, también se incluyen las ventajas e inconve-nientes de algunos otros métodos: los ya mencionados se-mianalíticos (estadísticos) y los de visualización y pregun-tas. Por ello, el apéndice (I) se titula: «Las tecnologías para(el tratamiento en) la minería de datos». Ni que decir tieneque la selección de la(s) tecnologías(s) que se deben em-plear y un apropiado diseño de la(s) máquina(s) constitu-yen aspectos críticos de la fase de tratamiento.

35

Page 34: ISBN 84-95336-48-0 FUNDACIÓN COTEC PARA LA …informecotec.es/media/N21_Mineria_Datos.pdf · empresarial que tiene como misión contribuir al desarrollo del país mediante el

3.3.4. Interpretación

Cuando se ha diseñado un clasificador o un estimador,puede verificarse cómo actúa sobre las muestras de prue-ba. Es el (primer) momento en que el experto (preferible-mente acompañado por el diseñador, de no ser el mismo),además de valorar prestaciones, ha de buscar una inter-pretación del funcionamiento de dicho clasificador o esti-mador: ¿por qué da ciertos resultados ante ciertas mues-tras?; ¿qué es lo importante de los datos que se manejan?;¿cómo puede expresarse la actuación en términos (fácil-mente) comprensibles para un humano?; etc. Obviamente, la interpretación es inmediata si se ha aplica-do un sistema experto, es decir, el constituido por reglasdel tipo «Si (A, B...) entonces (X, Y...)», explicitadas por ex-pertos humanos o construidas a partir de los datos. Y tam-poco es difícil para otros métodos máquina (vid. apéndiceI)... hasta llegar a las redes neuronales: se tiende a pensaren ellas como «cajas negras», completamente inescruta-bles, razón por la que se rechaza en muchas ocasiones suempleo, pese a su acreditada superioridad potencial parala resolución de problemas claramente no lineales.Dada la aparente dicotomía, han de dedicarse aquí dospalabras a lo que ha de llamarse interpretación. En elcaso de los sistemas expertos, por ejemplo, el experto hu-mano acepta la estructura del sistema para la interpreta-ción... lo que no deja de ser curioso: el humano no inter-preta los resultados, sino que se deja convencer por la ar-quitectura de la máquina... que podría ser (poco o mucho)inadecuada. Desde luego, en una situación forense, es có-modo repetir lo que la máquina dice con tanta contunden-cia, pero alegar que se ha interpretado el proceso es ina-propiado, y tomar como razón algo cuya exactitud puededejar mucho que desear puede, sin vacilación, calificarsede abusivo. Mucho más dificultoso es, desde luego, inter-pretar cómo procede una red neuronal; pero, si se logra,es una verdadera interpretación.

36

Page 35: ISBN 84-95336-48-0 FUNDACIÓN COTEC PARA LA …informecotec.es/media/N21_Mineria_Datos.pdf · empresarial que tiene como misión contribuir al desarrollo del país mediante el

El análisis y la interpretación de los resultados del trata-miento de los datos permite establecer una primera serie deconjeturas sobre la importancia de las diversas variables, laconveniencia de determinadas transformaciones, el gradode éxito de los procedimientos de imputación utilizados, loafortunado de la elección de un cierto modelo o arquitec-tura, lo acertado del criterio impuesto para la optimizacióny de la búsqueda aplicada..., incluso sobre lo satisfactoriodel resultado general y las posibilidades de mejorarlo. Envirtud de tales consideraciones conviene recorrer de nuevo,atentamente, los pasos anteriores, en el ya señalado ordende antes los primeros y después los posteriores: ajustando,retocando y modificando con el propósito de corregir aque-llo que no parezca adecuado. Aquí está uno de los puntosclave de un buen proceso de minería de datos: para subuena consideración hace falta, como se ha dicho, el con-curso del experto en el problema y del diseñador; o, mejoraún, una decidida y franca colaboración entre ambos.

3.3.5. Aplicación

Y se llega a la aplicación real, de campo: de la que se ob-tiene una nueva evaluación, y con la que es posible reali-zar reinterpretaciones, a lo largo de toda la vida útil delsistema, obteniendo con ello un (mejor) conocimiento delproblema que se está resolviendo; conocimiento del que,otra vez, pueden derivarse orientaciones para repetir el re-corrido y la revisión del diseño; lo que, de nuevo, hace re-comendable contar con la presencia del diseñador. Inclusoaunque se obtenga ventaja del empleo de algoritmia decarácter adaptativo en diversos componentes del sistemacompleto de minería, lo que tiene particular valor cuandose trata un problema en un entorno de características tem-poralmente variantes, la ayuda del diseñador se requierepara adaptar lo adaptativo y posibilitar una eficaz actua-lización automática del sistema.

37

Page 36: ISBN 84-95336-48-0 FUNDACIÓN COTEC PARA LA …informecotec.es/media/N21_Mineria_Datos.pdf · empresarial que tiene como misión contribuir al desarrollo del país mediante el

El conocimiento así obtenido es el resultado final de la mi-nería de datos, lo que permite al experto la fundada tomade decisiones, que es, como anteriormente se ha dicho,aquello para lo que verdaderamente estamos bien dotadoslos humanos.Como ilustración de este proceso, se ha recogido en elapéndice II un ejemplo de implantación paso a paso deuna solución de minería de datos para resolver un proble-ma/pregunta específico.

3.3. ALGUNAS REFLEXIONES

El carácter artificial de la minería de datos y sus difícilesbases analítico-computacionales despiertan no pequeñaalarma y abundante rechazo, como ya se ha señalado enestas páginas, no sólo de quienes ven sus datos incluidosen las bases que se están tratando, sino hasta de sus po-tenciales usuarios. Insistir en cómo evitar los perniciososefectos de estos miedos no es inapropiado, puesto queconstituyen obstáculos iniciales no ya para la aplicaciónde la minería de datos, sino para el propio beneficio declientes y expertos. En particular, no resultará vano recor-dar la necesidad del absoluto respeto a la legislación so-bre protección de datos.Es bien sabido que la oposición al cambio nace de lafalta de incentivos y del miedo al riesgo. Ambas cosasactúan sobre clientes y sobre expertos: los primeros venamenazada su intimidad y, para ello, hay que garanti-zar seguridad y confidencialidad; no aprecian así el be-neficio que pueden obtener al ver personalizada su rela-ción con la organización que considera sus datos. Lossegundos temen a un instrumento, algo tan paradójicocomo el temor a las lentes correctoras de la visión cuan-do son necesarias, o al menos convenientes; además,cosa muy explicable, tampoco desean meterse en cami-sa de once varas.

38

Page 37: ISBN 84-95336-48-0 FUNDACIÓN COTEC PARA LA …informecotec.es/media/N21_Mineria_Datos.pdf · empresarial que tiene como misión contribuir al desarrollo del país mediante el

Para salir de esta parálisis, la organización interesada esquien tiene que dar el primer paso: al fin y al cabo, es laque aspira al beneficio del proceso, ya que satisfacer y fi-delizar a sus clientes y mejorar el rendimiento de sus em-pleados, a la vez contentándolos, son cosas que hacen fal-ta para y desembocan en tal beneficio. Por eso la organi-zación tiene que involucrarse en la implantación delproceso de minería de datos: para el empujón inicial (ytambién, como más adelante veremos en algún caso para-digmático, para evitar que los departamentos se vean so-metidos a una confrontación de intereses). Y, para ese pri-mer paso, la organización ha de conocer las ventajas es-perables de la Minería. Para tal propósito no basta elesfuerzo de investigadores, diseñadores, consultores y pro-veedores: pese a la aparente circularidad de la proposi-ción son los expertos el componente principal de esta sen-sibilización, que deben abordar antes de que el mercadohaga saber que se va con retraso o, peor aún, que es de-masiado tarde.El experto tiene la llave, con riesgo casi inexistente, y te-niendo en cuenta el consejo de investigadores, diseñado-res, consultores y proveedores, para inducir a su organi-zación a buscar ventaja en la minería de datos: si la or-ganización lo acepta, la ganancia del experto es muygrande, en recursos disponibles y en aprecio de su activi-dad; y se crea un «círculo virtuoso» de intereses satisfe-chos de difícil ruptura. Con el apropiado uso de la mine-ría de datos, que posibilita al experto extraer informaciónpreviamente oculta, este experto adquiere un «sentido»adicional para observar la realidad: un «sentido» con li-mitaciones —como las tienen los propios sentidos huma-nos—, pero que suministra información valiosa, que, me-diante el necesario aprendizaje, le permitirá adquirir y de-sarrollar nuevo conocimiento. Si no acepta actuar en estadirección, y ya que es difícil admitir que la expansión deestas tecnologías se detenga por causa de resistenciasocasionales, el experto será el primer perdedor. Debe el

39

Page 38: ISBN 84-95336-48-0 FUNDACIÓN COTEC PARA LA …informecotec.es/media/N21_Mineria_Datos.pdf · empresarial que tiene como misión contribuir al desarrollo del país mediante el

experto comprender que la única capacidad que le es es-trictamente propia es la de tomar o proponer decisiones:tal capacidad, repetimos, puede ejercerse mejor y con me-nos riesgos si se incorpora este tan adecuado nuevo «sen-tido», colaborando con los que pueden enseñarle su buenempleo.

3.4. Y ALGUNOS ASPECTOS PRÁCTICOS

Tras repetir que es la organización interesada la que tieneque dar el primer paso, hemos de decir que no ha de ha-cerlo a ciegas: ha de definir claramente cuáles son los ob-jetivos que se buscan en la aplicación de la minería de da-tos, y hacerlo en virtud de unos ciertos retornos esperados.Y el primer paso no ha de abarcar la totalidad del proce-so: es frecuente, y hasta diríamos que recomendable, em-pezar por un proyecto piloto, con ayuda de un equipo téc-nico perteneciente a un proveedor, consultor u organiza-ción de I+D, pero proporcionando (al menos) dedicaciónde personas conocedoras del negocio. Además de que asíse facilita la comprensión técnica del proceso y el diálogoentre diferentes tipos de componentes de un equipo de mi-nería de datos, el usuario puede apreciar las característi-cas de la(s) herramientas(s) que se pone(n) en juego: suelección implica la de las técnicas de diseño y puede con-dicionar el despliegue de las tareas de minería en fasesposteriores.Un equipo completo de minería de datos incluye la pre-sencia de expertos en el negocio, de consultores de nego-cio y de técnicas cuantitativas, de analistas y de diversasclases de programadores: son evidentes sus papeles, con-siderando la precedente descripción del proceso. No obs-tante, tales equipos resultan necesarios sólo para organi-zaciones de gran tamaño, que típicamente han de llevar acabo simultáneamente varias aplicaciones de la mineríade datos trabajando con bases de datos muy masivas. Ver-

40

Page 39: ISBN 84-95336-48-0 FUNDACIÓN COTEC PARA LA …informecotec.es/media/N21_Mineria_Datos.pdf · empresarial que tiene como misión contribuir al desarrollo del país mediante el

siones reducidas de este equipo completo pueden ser másque suficientes en otros muchos casos: incluso la mínima(personas de negocios más técnicos) análoga a la antes ci-tada para un proyecto piloto. Eso sí: en cualquier configu-ración ha de respetarse la idea fundamental de que unacorrecta minería de datos ha de suponer una buena cone-xión entre negocio y técnica. Cerramos este punto con una reiteración: los datos reflejanel desarrollo del negocio tal como es y, por tanto, son lamejor fuente de información sobre el mismo; y no bastacon observarlos, sino que hay que extraer esa informaciónpara posibilitar la adquisición de lo importante, el conoci-miento sobre el negocio. Aun reconociendo que la adop-ción de la minería de datos requiere esfuerzos y cuidados,no debe olvidarse que, como quiera que han pasado lostiempos fáciles, tales esfuerzos y cuidados son imprescin-dibles para el avance del negocio, cuando no para su su-pervivencia.

41

Page 40: ISBN 84-95336-48-0 FUNDACIÓN COTEC PARA LA …informecotec.es/media/N21_Mineria_Datos.pdf · empresarial que tiene como misión contribuir al desarrollo del país mediante el

4.1. UNA TIPOLOGÍA (PARCIAL) DE LASAPLICACIONES DE LA MINERÍA DE DATOS

Todo intento de elaborar una tipología exhaustiva de la mi-nería de datos está condenado al fracaso: cualquier acti-vidad observable requiere, para su comprensión, de esti-maciones y decisiones, y esto es lo que permite la mineríade datos; por tanto, si la actividad es registrable como da-tos y estos son abundantes (lo que ocurre en un enorme nú-mero de ocasiones), tenemos una posible aplicación de laminería de datos.Optamos aquí por una tipología (harto) restringida, po-niendo especial interés en aplicaciones relacionadas condiversos aspectos de los negocios, dado el potencial desti-no de este texto. Debemos excusarnos por presentar los ti-pos según una «doble entrada» —por sector y por aplica-ción—, pues nos hemos visto obligados a ello para evitarque un lector con intereses específicos haya de recorrertodo el listado so pena de perder información relevante.

4.1.1. Telecomunicaciones

● Detección de fraude en llamadas telefónicas.● Gestión de la rotación («churn») de abonados.

43

4APLICACIONESDE LA MINERÍADE DATOS

Page 41: ISBN 84-95336-48-0 FUNDACIÓN COTEC PARA LA …informecotec.es/media/N21_Mineria_Datos.pdf · empresarial que tiene como misión contribuir al desarrollo del país mediante el

● Segmentación de mercados en grupos de usuarios paramárquetin y fidelización

● «Upgrading» de servicios.● Análisis de flujos de datos de alta velocidad.● Detección de fallos de red y seguridad informática.● Segmentación (diversificación) de carteras de clientes.

4.1.2. Comercio y Márquetin

● Fidelización de clientes y relación con el cliente («Cus-tomer Relationship Management», CRM).

● Márquetin dirigido («targeting»).● Estimación de la vida útil comercial de clientes.● Prospección, análisis de mercado y análisis de cesta de

la compra.● Predicción de ventas.

4.1.3. Sector Farmacéutico y Sanitario

● Predicción de ventas de productos farmacéuticos.● Ayuda al diagnóstico médico.● Investigación farmacéutica: supervisión de cultivo indus-

trial de antibióticos y descubrimiento de nuevos fárma-cos.

● Detección de fraude médico.● Análisis de datos clínicos en hospitales.

4.1.4. Sector Administración Pública y Servicios

● Prevención del crimen y terrorismo.● Investigación científica.● Control y predicción de tráfico de vehículos.● Predicción de flujos y optimización del turismo.● Diseño de políticas de gobierno.

44

Page 42: ISBN 84-95336-48-0 FUNDACIÓN COTEC PARA LA …informecotec.es/media/N21_Mineria_Datos.pdf · empresarial que tiene como misión contribuir al desarrollo del país mediante el

4.1.5. Sector Financiero

● Detección y control de fraude en el uso de tarjetas decrédito.

● Calificación de créditos hipotecarios y al consumo.● Evaluación de «salud financiera» de entidades.● Segmentación y fidelización de clientes.● Detección de fraude en gestión y operaciones financieras.● Segmentación (diversificación) de carteras de clientes.

4.1.6. Seguros

● Estimación de riesgos en la concesión de seguros.● Análisis de rotación de clientes («churn»).● Detección de fraude en seguros.

4.1.7. Industria y gestión empresarial

● Prevención de accidentes y gestión de alarmas (plantaspetroquímicas, nucleares, etc.).

● Monitorización, control de procesos y diagnóstico auto-mático de funcionamiento.

● Gestión y optimización de almacenes y organizaciones. ● Inteligencia de negocio.● Diseño y manufactura.● Gestión de conocimiento estratégica.● Ayuda en la toma de decisiones.

4.1.8. Internet/Comercio electrónico/Textos

● Perfilado de usuarios para minería de uso web («webusage mining»).

● Ayuda a la navegación web y rediseño de sitios webpara optimizar beneficios.

45

Page 43: ISBN 84-95336-48-0 FUNDACIÓN COTEC PARA LA …informecotec.es/media/N21_Mineria_Datos.pdf · empresarial que tiene como misión contribuir al desarrollo del país mediante el

● Campañas de márquetin dirigido uno-a-uno («one-to-one») y anuncios inteligentes personalizados («banners»).

● Diseño de ofertas en comercio electrónico.● Análisis automático de textos/filtrado de noticias.● Descubrimiento de patrones de comportamiento en co-

mercio electrónico.

4.2. EXAMEN DE ALGUNOS CASOS REALES

Pese a haber intentado, en páginas anteriores, formularadvertencias y recomendaciones que ayuden a evitar pro-blemas y errores y a obtener un buen rendimiento de losprocesos de minería de datos, sabemos que no hay nadacomo la realidad como fuente para el aprendizaje: porello exponemos algunos casos significativos, con la inten-ción de que sus rasgos refuercen el buen entendimiento delos principios expuestos.

4.2.1. El programa «Customer First» de MCI

En 1992, MCI se encontraba en plena competencia conAT&T y Sprint en el mercado de las llamadas a larga dis-tancia. El Departamento de Márquetin buscaba aumentarlas altas ofreciendo directamente cheques cuando se pro-ducían éstas; mientras tanto, el Departamento de Ventas,tras el éxito del hoy bien conocido programa «Friends &Family» en 1991, quería mejorar la fidelidad de los bue-nos clientes identificándolos, analizándolos y ofreciéndolesincentivos «personalizados».Desde el principio, Ventas se encontró con serias dificulta-des para alcanzar su objetivo: los datos sobre clientes es-taban dispersos en diferentes silos y, además, mal gestio-nados: así, un abonado con dos números se considerabacomo dos abonados independientes, un cambio de domi-cilio se interpretaba como una baja y un alta, etc.

46

Page 44: ISBN 84-95336-48-0 FUNDACIÓN COTEC PARA LA …informecotec.es/media/N21_Mineria_Datos.pdf · empresarial que tiene como misión contribuir al desarrollo del país mediante el

Ventas se enfrenta a todas esas dificultades y lleva a caboun primer proceso de minería de datos, obteniendo comoresultados más relevantes:

● La rotación («churn») concluía mayoritariamente a lostres meses de producirse el alta, y a los dieciocho me-ses podía considerarse que el cliente estaba fidelizado;en función de lo cual, Ventas recomienda pasar del che-que por alta a incentivos «a plazo» (cheque a los tresmeses, etc.).

● Los clientes fieles, en su mayoría, procedían del pro-grama «Friends & Family» o/y estaban asociados auna empresa colaboradora (línea aérea, tarjeta de cré-dito, etc.).

● La identificación de los mejores clientes lleva a conocerque los que generaban ingresos superiores a 75 US $al mes (500.000: el 5% del total) suponían, en su con-junto, el 40% de los ingresos, y que eran numerosos en-tre ellos los trabajadores en su domicilio, los que man-tenían conferencias trasantlánticas, los viajeros frecuen-tes...; pero las opciones de personalizar quedaban muylimitadas porque subsistían importantes preguntas sinrespuesta: los trabajadores en casa, ¿eran autónomos?;los conferenciantes trasantlánticos, ¿eran anglohablan-tes?; etc.

A la vista de estas incertidumbres, Ventas adopta una op-ción razonable: crear el programa «Customer First», en elque se asignaban a los buenos clientes gerentes de carte-ras personales, además de números 800, y se lanzabancampañas de planes de llamadas individualizadas a tra-vés de correo y telemárquetin segmentado, al tiempo quese aprestaba, con los datos que obtendría, a reevaluar lasmétricas y otros aspectos del previo proceso de minería...Pero no hay peor enemigo que el éxito parcial si no se tie-nen los pies fuertemente apoyados: el descenso de la ro-tación provocado por alguna de las medidas adoptadasproduce daño al Departamento de Márquetin, que recibía

47

Page 45: ISBN 84-95336-48-0 FUNDACIÓN COTEC PARA LA …informecotec.es/media/N21_Mineria_Datos.pdf · empresarial que tiene como misión contribuir al desarrollo del país mediante el

pluses en función del número de altas. Márquetin reclamaante los responsables corporativos hacerse cargo del pro-grama: se le transfiere y, tras rebautizarlo como «PersonalThanks», lo mata.Pese a que Ventas consigue mantener un programa «uno auno» con el mejor 0,15% de los clientes, que generan el7% de los ingresos, podemos, en consecuencia, concluirque la experiencia de minería de datos descrita constituyeun fracaso. Pero obsérvese: no se debe a las dificultadesintrínsecas (escasez y desorden de datos, etc.), sino que seproduce porque la organización no se prepara para apro-vechar los resultados. ¿Hace falta ahora insistir en el papelde los responsables de la organización?

4.2.2. La reducción de costes de campañaspostales en Mellon Bank Corporation

Mellon Bank Corporation es una compañía estadouniden-se de servicios financieros, con sede en Pittsburgh. A me-diados de los años noventa, y encontrándose ya en pri-mera línea de la adopción de tecnologías avanzadas (gas-taba unos 350 millones de dólares USA al año encomputación), decidió acometer un proyecto de minería dedatos encaminado a reducir costes de campañas de már-quetin postal, centrándose para empezar en un caso con-creto: ofertar a los clientes que tenían depósitos en la enti-dad y no lo eran de una línea de crédito con garantía enlas propiedades inmobiliarias del titular (unos 210.000 ca-sos) que acudiesen a dicha línea de crédito, recurriendocomo datos etiquetados a los correspondientes a 40.000casos que utilizaban ambos servicios y 5.000 más que ha-bían rechazado el segundo (la etiqueta, aproximada, erala utilización o no de la línea de crédito). En realidad, setrataba implícitamente de aprender y evaluar las técnicasque pudieran reducir los grandes gastos que implicaban (eimplican hoy, claro está) las campañas de márquetin pos-

48

Page 46: ISBN 84-95336-48-0 FUNDACIÓN COTEC PARA LA …informecotec.es/media/N21_Mineria_Datos.pdf · empresarial que tiene como misión contribuir al desarrollo del país mediante el

tal no dirigido, cuyas tasas de respuesta se sitúan entre el1% y el 2%, típicamente.Un análisis estadístico preliminar llevó a considerar 120variables como posiblemente relevantes: sociodemográfi-cas (debe resaltarse que se excluyeron las conocidas como«discriminadoras inapropiadas»: edad, sexo, etc.), proce-dentes de la cuenta de depósitos y correspondientes alpréstamo (éstas, para definir «subproblemas»). Tras ello,se utilizaron diseños de redes neuronales para una pri-mera valoración de la probabilidad de respuesta de la población no etiquetada (en realidad, de su rango: de ma-yor a menor) ante diferentes tipos de oferta: en esta fasese realizó una selección de las variables relevantes. Segui-damente, y con el propósito de conseguir interpretar los re-sultados desde el punto de vista del negocio, se hizo unaclasificación en casos positivos y negativos mediante unárbol de decisión.Resulta muy ilustrativo revisar las conclusiones que extrajola compañía de esta experiencia:

● Los resultados para el problema concreto que se atacófueron más que satisfactorios: se conseguía llegar amás del 90% de los clientes que respondían con el 50%de los envíos, o a más del 50% con sólo el 20% de losenvíos.

● La estructura del árbol de decisión resultante de la se-gunda fase permitió a los analistas preparar varias car-tas de oferta distintas para diferentes subgrupos declientes, al serles posible interpretar las característicasde éstos.

● También fue posible identificar factores críticos en estetipo de operaciones: así, tasas de interés superiores al6,775% resultaban disuasorias.

● Mellon Bank pudo ahorrar importantes sumas prescin-diendo de la compra a proveedores externos de regis-tros de datos con variables que resultaban inútiles aefectos predictivos en estas aplicaciones.

49

Page 47: ISBN 84-95336-48-0 FUNDACIÓN COTEC PARA LA …informecotec.es/media/N21_Mineria_Datos.pdf · empresarial que tiene como misión contribuir al desarrollo del país mediante el

● Finalmente, la compañía, a la vista de los esfuerzos queresultaron precisos para la preparación de los datos,enormemente mayores que los que se requirieron parala minería propiamente dicha, inició un proyecto estra-tégico para sistematizar la captura, el almacenamientoy los preprocesados básicos (no orientados a aplica-ción) de los datos de negocio, en el convencimiento deque así potenciaba grandemente sus posibilidades deincrementar beneficios.

4.2.3. El caso de Jubii: personalización en comercio electrónico

En un mes típico, Jubii, el portal de Internet más popularen Dinamarca, tiene 2,3 millones de visitas. De hecho, du-rante los últimos cinco años ha sido el principal portal deese país, absorbiendo el 82% del mercado total. Es unsubsidiario de Lycos Europa, que es parcialmente po-seído por Lycos USA. Dicho portal ofrece una serie de ser-vicios gratuitos: motor de búsqueda, correo electrónico, ra-diodifusión por internet, tienda, chat, etc.Pero la popularidad no lo es todo: Jubii es un negocio, ycomo tal ha de mejorar sus cuentas de resultados mes ames, en un terreno tan dinámico y competitivo como el delos portales web. Como los servicios ofrecidos son a costecero para el visitante, su éxito/viabilidad comercial de-pende de los beneficios procedentes de anuncios («ban-ners»), patrocinios, eventos Internet, boletín de avisos, entre otros. Debe, por tanto, atraer el máximo de anun-ciantes, y crear servicios de valor añadido por los cualeslos usuarios estén dispuestos a pagar. Es necesario comopaso previo comprender perfectamente qué es lo que losvisitantes quieren comprar y/o visualizar.Para aumentar su rentabilidad, el director de ventas Kas-per Larsen lanzó un proyecto de perfilado de clientes, conel objetivo de crear perfiles de usuario, que ayudarían a

50

Page 48: ISBN 84-95336-48-0 FUNDACIÓN COTEC PARA LA …informecotec.es/media/N21_Mineria_Datos.pdf · empresarial que tiene como misión contribuir al desarrollo del país mediante el

los anunciantes a un márquetin mejorado. Se han identifi-cado y fijado los siguientes objetivos parciales:

● Aumentar el número y calidad de los clientes propor-cionados a los anunciantes.

● Permitir a los anunciantes dirigirse a los visitantes webmás proclives a la compra de sus productos.

● Extender su lista de visitantes, mientras retienen a losusuarios actuales.

● Crear servicios de valor añadido para atraer a suscrip-tores futuros.

Como primera fase se contactó con SPSS y ACsys, paraque prestaran servicios de consultoría y productos de mi-nería. Los datos de actividad de los usuarios fueron capta-dos utilizando el componente «DoubleClick AdServer», ypara el análisis de la información capturada, se empleóClementine. Se midieron cuatro características para cadausuario registrado:

● Perfil de tipo de páginas visitadas en días laborables.● Perfil de tipo de páginas visitadas en días festivos y fin

de semana.● Perfil de tiempo de uso (momento del día, duración), en

días laborables.● Perfil de tiempo de uso (momento del día, duración), en

días festivos y fin de semana.

Cada uno de estos modelos se actualiza con cada accióndel usuario, con lo cual está siempre disponible infor-mación actualizada de cada visitante al sitio Web. Antesde desplegar un nuevo anuncio («banner»), se consultauna base de datos de puntuación para encontrar el anun-cio más apropiado para una determinada ubicación yusuario.La expansión de este proyecto dentro del portal fue muyrápida, denotando buenas características de escalabilidadfrente a grandes volúmenes de datos: al principio, se apli-

51

Page 49: ISBN 84-95336-48-0 FUNDACIÓN COTEC PARA LA …informecotec.es/media/N21_Mineria_Datos.pdf · empresarial que tiene como misión contribuir al desarrollo del país mediante el

caban estas técnicas únicamente sobre 65.000 usuarios(clientes fidelizados en la sección «Jubii’s Euro Investor»,pero tres meses después del comienzo del proyecto ya seextendió a la totalidad de usuarios y secciones. El éxito de un anuncio web («banner») se mide mediantela tasa de activación del mismo («clic-through rate», CTR),esto es, el número de personas que hacen «clic» sobre elmismo para acceder al sitio web del anunciante. Antes dela implantación del proyecto, la CTR en la sección «EuroInvestor» era del 0,05%, tras la implantación, se produjoun incremento de entre el 30% y el 50%. Esto dio lugar auna mayor satisfacción de los anunciantes y, por tanto,una mayor fidelización de los mismos al portal Jubbi. Conobjeto de hacer estos datos transparentes a los propiosanunciantes, Jubii diseñó un nuevo interfaz gráfico paraanunciantes, de modo que éstos pudieran comparar lasprestaciones con el método antiguo frente al método inclu-yendo minería de datos, para demostrar que los efectos noeran casuales. Esta información es, a su vez, de gran inte-rés para los anunciantes, pues al poder explorar efectosde respuesta en su mercado —incluso incluyendo la posi-bilidad de centrarse en grupos especiales, por secciones,en función del tiempo, etc.—, están más capacitados paraun mejor diseño de sus campañas de márquetin, su ade-cuada planificación temporal o temporización, los objeti-vos que se pretende alcanzar, etc. Como las agencias de medios realizan compras basándo-se en el índice CTR, esto implica directamente un aumentode ventas. El incremento observado en CTR se traduce, fi-nalmente, en un aumento de las ventas entre el 10% y el15%. Con respecto a los costes de implantación, cifras es-timadas de negocio indican que el coste del proyecto seha amortizado completamente en unos diez meses, lo cualhace totalmente viable y asumible el despliegue de estosservicios en casos reales. Como posible trabajo de mejora futura, se ha observadoque la información extra medida de las interacciones de

52

Page 50: ISBN 84-95336-48-0 FUNDACIÓN COTEC PARA LA …informecotec.es/media/N21_Mineria_Datos.pdf · empresarial que tiene como misión contribuir al desarrollo del país mediante el

los usuarios proporciona a Jubii la posibilidad de estable-cer nuevos métodos más flexibles de facturación: por ejem-plo, a los anunciantes se les podría cobrar por el númerode veces que un visitante selecciona determinada página,por colocar anuncios en las franjas horarias más prove-chosas, etc., es decir, se abren nuevas formas de negocioy facturación a partir de los análisis llevados a cabo sobrelos datos de usuarios.El interés inicial sobre los mecanismos de anuncio median-te «banner» fue la forma práctica de demostrar la impor-tancia de conocer los hábitos de los consumidores paraoptimizar los beneficios, pero es intención de Jubii exten-der el uso de estos mecanismos al resto de contenidos yservicios del portal, a fin de alcanzar una personalizacióntotal de lo ofrecido en el mismo, estableciéndose unas ba-ses sólidas para el despliegue de mejores sistemas de ges-tión y creación de contenidos. En el futuro, Jubii planea también monitorizar su tasa derotación («churn») de usuarios mediante la generación degrafos utilizando datos de terceros, esto es, necesita cons-truir una escena general del mercado, averiguando nosólo cifras absolutas de acceso a su portal, sino cifras re-lativas (incremento, decremento) de número de visitas aeste tipo de portales.

4.2.4. ClearCommerce Corporation: reducciónde riesgo y detección de fraude en operacionesen Internet

ClearCommerce Corporation es un líder mundial en solu-ciones para procesamiento de pagos y detección de frau-de en operaciones realizadas a través de Internet, habi-tualmente haciendo uso de medios electrónicos de pago.De acuerdo con un estudio del año 2002 del Grupo Gart-ner, uno de cada seis consumidores en Internet de los Es-tados Unidos fue víctima de un fraude en tarjetas de cré-

53

Page 51: ISBN 84-95336-48-0 FUNDACIÓN COTEC PARA LA …informecotec.es/media/N21_Mineria_Datos.pdf · empresarial que tiene como misión contribuir al desarrollo del país mediante el

dito durante el año 2001. El 95% de las operaciones decompra en Internet se llevan a cabo mediante este mediode pago a crédito, y el fraude es 19 veces más frecuenteen Internet que en establecimientos presenciales. Pese a losesfuerzos continuados por parte de comerciantes, interme-diarios, emisores de tarjetas y cuerpos policiales para re-ducir dicho fraude, las cifras siguen siendo preocupantes yde hecho experimentaron un crecimiento entre los años2000 y 2002.ClearCommerce fue fundada en 1997 como un proveedorde servicios de pago a sitios web y, desde 1999, ha ve-nido utilizando una aplicación denominada FraudShield™,que básicamente es un sistema basado en reglas que de-tecta potenciales operaciones fraudulentas y ayuda a loscomerciantes a detectar transacciones sospechosas. Perola mera detección no era suficiente para mantener en ci-fras razonables los casos de fraude; por lo cual se decidiócomplementar la aplicación con un módulo predictivo decalificación. El director de minería de datos en ClearCom-merce, Daniele Micci-Barreca decidió incorporar un módu-lo de redes neuronales que ya conocía de aplicacionesanálogas en otros ámbitos, para su uso como evaluacióna priori del riesgo de las transacciones, concretamente laaplicación FraudAnalyzer de Clementine. El sistema de decisión basado en tecnología de redes neu-ronales requería datos para el ajuste de sus parámetros li-bres, fase también denominada como de «entrenamiento»,y para ello se recurrió a la gran cantidad de informaciónalmacenada por ClearCommerce a lo largo de sus muchosaños de funcionamiento en el mundo de las ventas en In-ternet. Se procedió al análisis de millones de transaccioneseconómicas, así como a decenas de miles de casos autén-ticos de fraude. Estos datos históricos recopilaban el histo-rial de transacciones de miles de sitios web, de los que sehabían recopilado tanto detalles de las operaciones (canti-dad de la compra, momento del día, información de fac-turación, detalles de envío, etc.) como información de de-

54

Page 52: ISBN 84-95336-48-0 FUNDACIÓN COTEC PARA LA …informecotec.es/media/N21_Mineria_Datos.pdf · empresarial que tiene como misión contribuir al desarrollo del país mediante el

voluciones o negaciones de transacción de operación detarjeta de crédito. Una vez más, se puede intuir que lasbuenas prestaciones alcanzadas por el sistema se debenen buena medida a la importante y detallada cantidad deinformación recopilada con el paso de los años.De este modo, el conocimiento previo sobre los determina-dos negocios, aportado por los directamente implicados yplasmado en el primitivo sistema de reglas, se comple-mentó con un sistema de análisis de datos para la cali-ficación de riesgo transaccional. Este último podía, en últi-ma instancia, permitir la extracción de reglas interpreta-bles que se incorporaban al sistema de reglas predefini-das, lo que aumentaba la explicabilidad de las acciones odecisiones tomadas por el sistema. Es difícil evaluar qué cantidad de operaciones fraudulentasha podido evitar el sistema, pues las operaciones rechaza-das nunca son analizables y, además, cada implementa-ción se ajusta a los parámetros de cada cliente. Cada im-plantación es flexible, de modo que una vez en funciona-miento, cada usuario final puede modificar los parámetrosoportunos para permitir un mayor porcentaje de transac-ciones aceptadas, a costa de un mayor riesgo de fraude oviceversa. No obstante, sí es posible comparar con varia-bles medidas en términos globales, concretamente, en rela-ción a las tasas medias de rechazo de operaciones en elsector, y el coste de revisión manual de órdenes de compra.La tasa de rechazo de operaciones indica el porcentaje depeticiones que han sido devueltas al comerciante, debidoa que el propietario de la tarjeta de crédito las rechaza,debido fundamentalmente a que eran fraudulentas (uso noautorizado de la tarjeta). La tasa estándar de rechazo entérminos generales se sitúa entre el 0,7% y el 0,8%. En lamayor parte de los negocios que han implantado la solu-ción de ClearCommerce, dicha tasa se ha reducido hastael 0,1%.En lo que respecta a la segunda variable, el porcentaje deórdenes revisadas manualmente, se ha observado que di-

55

Page 53: ISBN 84-95336-48-0 FUNDACIÓN COTEC PARA LA …informecotec.es/media/N21_Mineria_Datos.pdf · empresarial que tiene como misión contribuir al desarrollo del país mediante el

cha cifra se veía reducida hasta el 40% aun conservandolas cifras de rechazo antes mencionadas, lo que suponeun enorme ahorro en costes de personal asociado a dichatarea rutinaria de inspección manual. Hemos visto cómo el uso de técnicas de minería de datosrepresenta una nueva arma para luchar contra fenómenoscomo el fraude en transacciones en Internet que, de otromodo, experimentarían un crecimiento generalizado y sincontrol.

4.2.5. VISANET Brasil: detección de fraude enoperaciones con tarjetas de crédito

VISANET, radicada en São Paulo (Brasil), es la mayor pro-cesadora de tarjetas de crédito en su país, con casi tresmillones de transacciones al día, en prestación del servicioa la casi totalidad de los bancos que operan en el territo-rio brasileño.La prevención del fraude en el uso de tarjetas de créditosupone enfrentarse con un problema con las característicastípicas de la minería de datos: un volumen muy alto de da-tos que hay que manejar y necesidad de alta discrimina-ción entre muestras que comparten un buen número de ca-racterísticas. Además, la dificultad de la solución aumentapor el gran desequilibrio que existe entre las poblacionescorrespondientes a operaciones correctas y operacionesfraudulentas. Desde el punto de vista operativo, los desafí-os para implantar soluciones de éxito se ven incrementa-dos aún más por el interés de obtener respuestas muy rá-pidas —preferiblemente en tiempo real— ante transaccio-nes concretas, y por la ubicación del sistema de detecciónen un proceso obviamente crucial para el proveedor deservicios de medios de pago, las entidades bancarias y losusuarios, lo que obliga a satisfacer unos requerimientos decalidad de «software» y de seguridad y privacidad de in-formación extremadamente exigentes.

56

Page 54: ISBN 84-95336-48-0 FUNDACIÓN COTEC PARA LA …informecotec.es/media/N21_Mineria_Datos.pdf · empresarial que tiene como misión contribuir al desarrollo del país mediante el

Hace pocos años, VISANET estableció contacto con el Ins-tituto de Ingeniería del Conocimiento (IIC), sito en la Uni-versidad Autónoma de Madrid, que había empezado atrabajar en esta problemática en 1996, en un proyectoconjunto con IBM España. La evolución de estos trabajosdio posteriormente lugar a la creación del sistema Lynx, cu-yas bases tecnológicas son de desarrollo propio.El sistema Lynx combina la aplicación de módulos para-métricos, que permiten incorporar reglas que reproducenel comportamiento de analistas expertos, y modelos neuro-nales, que se entrenan con datos históricos propios declientes, incluyendo un fichero de fraude comprobado; en-trenamiento que se repite periódicamente para adaptarsea la dinámica del fraude y hacer frente a nuevas necesi-dades. Lynx asigna a cada operación con tarjeta un índi-ce de riesgo entre 0 y 100, asimilable a la probabilidadde que la transacción sea fraudulenta. Ofrece así un bajocociente entre número de casos que dan lugar a alerta ycasos realmente fraudulentos, lo que permite a la entidadque lo implante un importante ahorro tanto por fraude evi-tado mediante el bloqueo temprano de las tarjetas cuantoen los propios costes del proceso de detección, al ser po-sible reducir el número de casos que requieren análisis ex-perto.VISANET Brasil adoptó Lynx (que también ha sido incor-porado por otros bancos y proveedores de servicios depago en España e Iberoamérica) hace tres años: el resul-tado ha sido el rechazo de transacciones fraudulentas quehabrían ocasionado unas pérdidas directas de unos 20 mi-llones de dólares; y, si se tienen en cuenta los saldos enriesgo de las cuentas asociadas, la pérdida evitada enfraude se cifra en unos 65 millones de dólares. En pala-bras de Antonio Machado Jr, Director Ejecutivo de Riesgoy Fraude de VISANET:«No existe nada similar en el mundo, en que casi el 100%de las transacciones de un país son monitorizadas por unúnico sistema accesible a todos los emisores locales con

57

Page 55: ISBN 84-95336-48-0 FUNDACIÓN COTEC PARA LA …informecotec.es/media/N21_Mineria_Datos.pdf · empresarial que tiene como misión contribuir al desarrollo del país mediante el

garantía de seguridad en la información de cada uno deellos».

4.2.6. La segmentación de clientes de ENDESA

ENDESA es el mayor de los cinco grandes proveedores deelectricidad en España, con el 40% de cuota de mercado,y el segundo distribuidor de gas; ofrece también otros pro-ductos y servicios asociados a la energía. Antes de la li-beración del mercado de energía en 2003, la observaciónde que, en los dos años precedentes, el 25% de las gran-des empresas (únicas en disponer de esta opción) cambia-ban su proveedor llevó a ENDESA a concluir que era ne-cesario conocer su mercado, personalizar sus ofertas y sa-ber a qué clientes fidelizar, según palabras de Luis MiguelMuruzabal, Director de Márquetin.ENDESA, que disponía de siete bases de datos masivascon diez millones de clientes, no había establecido varia-bles relevantes para la subsegmentación de los tres seg-mentos tradicionales de clientes (hogares, empresas ygrandes compañías). Los datos eran de calidad variable,no se analizaban por medios informáticos y se destinabana la administración de clientes, con tiempo de respuestalento.La conveniencia de segmentar para objetivos de márquetinllevó a ENDESA a recurrir a un proveedor, que prestó suapoyo basándose en demostrar los beneficios de la mine-ría de datos mediante un proyecto piloto. Se invirtió en he-rramientas de márquetin y se realizó la subsegmentación,con especial cuidado en el estricto cumplimento de la le-gislación sobre protección de datos, tanto en seguridad fí-sica como solicitando el consentimiento de los clientespara usar sus datos.El proyecto identificó dos o tres subsegmentos dentro decada uno de los segmentos tradicionales. Un destacadoefecto ha sido que las divisiones de márquetin se organi-

58

Page 56: ISBN 84-95336-48-0 FUNDACIÓN COTEC PARA LA …informecotec.es/media/N21_Mineria_Datos.pdf · empresarial que tiene como misión contribuir al desarrollo del país mediante el

zaron según estos planteamientos: lo que es prueba deque el resultado del proyecto se mostró beneficioso. Porello dijo Luis Miguel Muruzabal:«Tenemos diez millones de clientes, desde personas en áreas rurales alejadas hasta grandes corporaciones queutilizan un gran volumen de energía. Segmentar el merca-do es una tarea difícil, pero el equipo de la compañía pro-veedora ha tenido las habilidades técnicas necesariaspara ayudarnos a conseguir esta segmentación.»Tras esta experiencia, ENDESA se concentra en la gestiónde la relación con el cliente (CRM: «Customer RelationshipManagement») y dedica cada vez más recursos a este tipode proyectos, por entender que son imprescindibles parala supervivencia de la compañía.

4.2.7. Diseñando un medicamento: el caso dedeCODE genetics

Una de las más recientes aplicaciones de la biotecnologíaconsiste en la búsqueda de formas variantes de genes quepueden estar directamente implicadas en el desarrollo deenfermedades humanas. Su detección y la posterior inves-tigación de sus funciones posibilita el diseño de medica-mentos específicamente dirigidos contra las funciones nodeseadas, previniendo o tratando así las enfermedadesderivadas. Esta aproximación terapéutica se empieza adenominar «medicina a la carta», posible hoy gracias, deun lado, a la secuenciación del genoma humano y, deotro, a la aplicación de la minería de datos para tratar losmuchos miles de datos cifrados en las secuencias resultan-tes, realizando comparaciones entre personas aquejadas ypersonas libres de una cierta enfermedad (de la que hayasospecha de predisposición o concausa genética).Un ejemplo de actividad en esta tan prometedora línea detrabajo es el proporcionado por la empresa deCODE ge-netics, que en febrero pasado publicó los resultados de un

59

Page 57: ISBN 84-95336-48-0 FUNDACIÓN COTEC PARA LA …informecotec.es/media/N21_Mineria_Datos.pdf · empresarial que tiene como misión contribuir al desarrollo del país mediante el

estudio de los integrantes de cerca de 300 familias islan-desas, entre los que había 700 personas que habían sufri-do al menos un ataque cardíaco: el que esta poblaciónmuestre elevados índices de consanguinidad permite de-tectar variaciones genéticas con mayor facilidad. La em-presa también estudió los genes de dos grupos de 700 bri-tánicos, con y sin historial de ataques cardíacos. Las comparaciones realizadas han permitido relacionar ungen, llamado ALOX5AP, con el riesgo de ataque cardíaco:deCODE genomics detectó una frecuencia anormalmenteelevada de formas alteradas de este gen en personas coneste problema (30% entre los islandeses y 15% entre el co-rrespondiente grupo británico); formas alteradas que pro-ducen cantidades inusualmente elevadas de compuestos(leucotrienos) que favorecen la inflamación de la pared ar-terial, probablemente incrementando el riesgo de infartocardíaco. Esta información ha permitido poner en marchael desarrollo de medicamentos específicos para bloquearla actividad de estos leucotrienos en personas con esta al-teración genética, y con ello intentar reducir su riesgo desufrir un ataque cardíaco.

60

Page 58: ISBN 84-95336-48-0 FUNDACIÓN COTEC PARA LA …informecotec.es/media/N21_Mineria_Datos.pdf · empresarial que tiene como misión contribuir al desarrollo del país mediante el

5.1. ASPECTOS OBSERVADOS

Son varios los factores que dificultan la cuantificación dela situación actual del sector en términos de volumen denegocio asociado directamente a actividades de mineríade datos. Por una parte, los datos económicos de consul-toras que realizan labores en ese ámbito o de empresasproveedoras de soluciones de minería de datos no suelenser fácilmente accesibles, al considerarse información es-tratégica. Por otro lado, no es fácil obtener medidas cuan-titativas de volumen de negocio asociado a procesos deminería de datos, ya que éstos suelen utilizarse como me-didas complementarias para mejorar la productividad delos negocios, y no dan lugar a resultados económicos conimplicación explícita en los procesos contables. Nos limi-taremos, por tanto, en este capítulo, a la interpretación delestado del sector mediante observaciones indirectas.Aunque resulta interesante analizar casos particulares demejoras en procesos y beneficios obtenidos tras aplicartécnicas de minería de datos en determinados ámbitos, —tal y como se ha ilustrado en los casos de aplicación re-cogidos en la sección 4.2—, también es de interés dispo-ner de una perspectiva global, objetivo que se pretendecubrir en este capítulo mediante la presentación de datosde preferencias de uso de herramientas de minería de da-

61

5EL ESTADOACTUAL DE LAMINERÍA DEDATOS

Page 59: ISBN 84-95336-48-0 FUNDACIÓN COTEC PARA LA …informecotec.es/media/N21_Mineria_Datos.pdf · empresarial que tiene como misión contribuir al desarrollo del país mediante el

tos, estadísticas de uso por sectores, y análisis del com-portamiento en el mercado de empresas que comerciali-zan este tipo de herramientas y/o servicios.

5.2. PREFERENCIAS DE USO DEHERRAMIENTAS

Como quiera que no existe acuerdo entre las diversas fuen-tes sobre la presencia entre los usuarios de la minería dedatos de las diversas herramientas, sería imprudente incluiren este documento datos detallados.Así, si bien en la encuesta realizada por KDnuggets 5

(muestra reducida para asegurar su validez científica), Cle-mentine, de SPSS, figura en el primer lugar con un 14% depresencia en 2003 (aunque la suma de herramientas SAStambién llega al 14%, la de SPSS alcanza el 23%), la ci-fra que le asigna Giga Research es el 2%, y el porcentajedel mercado mundial (en ventas) en 2002 que atribuyeIDC a las herramientas de SPSS no llega al 7%, pasandoSAS del 36%. De modo que sólo cabe decir que ambascompañías tienen importante presencia, como también esreconocible la de IBM («Intelligent Miner»), Microsoft(SQL), Insightful Corp («Insightful Miner»), Computer Asso-ciates, Hitachi y otros. No es despreciable el número decasos en que se emplea código propio o desarrollos sobreherramientas generales, como Matlab (Mathworks).

5.3. ÁMBITOS DE APLICACIÓN

En lo que respecto a ámbitos de aplicación de técnicas deminería de datos y, también procedentes de una encuestaen KDnuggets, ilustramos en la siguiente tabla el porcenta-je de usos por sector.

62

5 http://www.kdnuggets.com/

Page 60: ISBN 84-95336-48-0 FUNDACIÓN COTEC PARA LA …informecotec.es/media/N21_Mineria_Datos.pdf · empresarial que tiene como misión contribuir al desarrollo del país mediante el

El sector predominante durante el período bajo estudio hasido el de bioinformática/biotecnología/farmacia, segui-do muy de cerca por el de banca, manteniéndose aproxi-madamente en ambos casos los porcentajes a lo largo delos tres años. Se observa un declive importante en las apli-caciones en e-comercio y web, tal vez debido a las ex-pectativas no satisfechas en ese ámbito de negocio en losúltimos años, aunque el hecho de que actualmente se ob-serva una tímida recuperación en el sector, especialmenteen Estados Unidos, hace pensar en un resurgimiento a me-dio plazo de aplicaciones en el mismo.

5.4. PREFERENCIAS DE USO DE TÉCNICAS

Resulta también interesante analizar qué tipo de técnicasson las preferidas por los usuarios de minería de datos. Enotra encuesta paralela, también procedente de KDnuggets,

63

2001 2002 2003

Bioinformática/biotecnología/farmacéutico 15 14 16

Banca 12 13 13

Marketing directo – 11 10

Detección fraude 10 11 9

Datos científicos 9 6 9

Seguros 6 6 8

Telecomunicaciones 10 8 8

e-comercio/web 14 10 5

Inversiones/gestión almacén 5 4 3

Otros 19 17 19

Tabla 1Ámbitos preferentes de aplicación de herramientas de minería de datos, segúnencuesta realizada por KDnuggets. Los resultados se presentan ordenados aten-diendo a los datos del año 2003.

Page 61: ISBN 84-95336-48-0 FUNDACIÓN COTEC PARA LA …informecotec.es/media/N21_Mineria_Datos.pdf · empresarial que tiene como misión contribuir al desarrollo del país mediante el

se recoge la evolución de las preferencias de los usuarios(tabla 2)

Atendiendo a estos datos, la técnica de mayor uso y difu-sión es la de árboles de decisión, siendo utilizada por el60% de los encuestados, posiblemente debido a su relati-vamente bajo coste computacional y buena escalabilidad,así como la posibilidad de interpretación final por parte

64

Votos % Votos % 2002 uso 2003 uso Cambio

Árboles de decisión 128 60,1% 120 56,6% –5,8%

Agrupamiento 103 48,4% 93 43,9% –9,3%

Estadística clásica 101 47,4% 92 43,4% –8,5%

Redes neuronales 75 35,2% 71 33,5% –4,9%

Regresión logística 75 35,2% 69 32,5% –7,6%

Visualización 52 24,4% 55 25,9% 6,3%

Reglas 63 29,6% 42 19,8% –33,0%

k-NN 42 19,7% 38 17,9% –9,1%

Procesado textos 30 14,1% 30 14,2% 0,5%

Minería web 19 8,9% 29 13,7% 53,4%

Máquinas de vectores soporte - 24 11,3% —(SVMs)

Métodos bayesianos 24 11,3% 24 11,3% 0,5%

Análisis secuencial 27 12,7% 24 11,3% –10,7%

Métodos híbridos 21 9,9% 23 10,8% 10,0%

Algoritmos genéticos 26 12,2% 12 5,7% –53,6%

Otros 20 9,4% 22 10.,4% 10,5%

Tabla 2Cambios en las preferencias de técnicas de minería de datos. Los resultados sepresentan ordenados atendiendo a los datos del año 2003.

Page 62: ISBN 84-95336-48-0 FUNDACIÓN COTEC PARA LA …informecotec.es/media/N21_Mineria_Datos.pdf · empresarial que tiene como misión contribuir al desarrollo del país mediante el

de usuario. No obstante, como se discute en el apéndice I,esta técnica no está exenta de inconvenientes. Le siguende cerca las técnicas de agrupamiento, de estadística clá-sica y de redes neuronales. Como otros datos destacables,observamos el espectacular descenso del uso de los algo-ritmos genéticos, probablemente debido a las limitacionesde escalabilidad frente a grandes volúmenes de datos yproblemas complejos. Tampoco es despreciable el descen-so de la técnica de reglas, el 33%. Como caso de granvariación positiva, observamos el espectacular crecimientode las técnicas de minería web, seguramente empuja-das por el crecimiento exponencial de la información dis-ponible, y el mayor y más asequible acceso de ésta al pú-blico en general, lo que motiva la optimización de los ne-gocios web en general, pero que aun así sólo copan el14% del total. Finalmente, es necesario resaltar el impor-tante crecimiento de uso de una técnica emergente, las má-quinas de vectores soporte, que en muy poco tiempo ya seequiparan a técnicas históricamente asentadas como lasbayesianas.

5.5. UN DETALLE SOBRE LA EVOLUCIÓN DELA MINERÍA DE DATOS

Observar en detalle la evolución de uno de los proveedo-res de referencia de herramientas de minería de datoscomo es SPSS, nos puede resultar altamente informativoacerca de la salud del sector. Podemos quedarnos con da-tos puntuales correspondientes a resultados económicosde SPSS en el tercer cuarto del año 2003, y se puede ha-blar de unos beneficios de 52 millones de dólares, con-cretamente las ventas de productos de minería se incre-mentaron el 26% con respecto al mismo período del añoanterior, aumento cuantificable en unos dos millones dedólares. Estas cifras son indicativas de que el sector de laminería se encuentra en buenas condiciones y con buenas

65

Page 63: ISBN 84-95336-48-0 FUNDACIÓN COTEC PARA LA …informecotec.es/media/N21_Mineria_Datos.pdf · empresarial que tiene como misión contribuir al desarrollo del país mediante el

perspectivas de crecimiento en los próximos años. Ade-más de una fotografía instantánea, interesa sobremanerala observación de la evolución temporal de este tipo denegocios. En la siguiente figura, se ha representado laevolución en bolsa (Nasdaq) durante los últimos diezaños de importantes empresas del sector TIC 6 comoSPSS, Nokia, Cisco e IBM.

Se observa cómo SPSS e IBM, ambas compañías conactivos importantes en minería de datos, han resistidorelativamente bien el declive de los años 2001-2002,

66

6 Tecnologías de la Información y las Comunicaciones.

(a) (b)

(c) (d)

Figura 6Evolución en bolsa (Nasdaq) durante los últimos diez años de importantes em-presas del sector TIC: (a) SPSS, (b) Nokia, (c) Cisco y (d) IBM.

Page 64: ISBN 84-95336-48-0 FUNDACIÓN COTEC PARA LA …informecotec.es/media/N21_Mineria_Datos.pdf · empresarial que tiene como misión contribuir al desarrollo del país mediante el

de claro impacto negativo especialmente en el sectorTIC. Hasta cierto punto, es posible inferir que la mineríade datos es un ámbito de negocio relativamente robustofrente a «desastres» económicos, tal vez debido a queen tiempos de crisis, la mayor parte de las empresasacuden con premura a este tipo de soluciones que lespermitan ganar la suficiente competitividad como parapermitir su supervivencia. Para resumir este comporta-miento, podríamos añadir a las frases recogidas en elpunto 3.1 la de «las empresas se acuerdan de Santa Bár-bara cuando truena». Adicionalmente, en épocas de bo-nanza económica —como la disfrutada hace años porlas empresas tecnológicas («boom» de las «.com») o laque aparentemente se empieza a vivir en 2004—, tam-poco faltan las fuentes de negocio, pues también sonmuchas las empresas que aprovechan los excedentes obuenas expectativas de resultados para mejorar sus pro-cesos y optimizar sus negocios mediante la aplicaciónde minería de datos.En lo que respecta a previsiones para los próximos años,debemos tener en cuenta hechos como que en los próxi-mos tres años, la humanidad generará muchos más datosque los acumulados a lo largo de toda su historia, quecada veinte meses se duplicará la cantidad de informaciónen el mundo, que la previsión de tráfico diariamente trans-mitido en 2007 por Internet será equivalente a 64.000 bi-bliotecas del Congreso de los Estados Unidos (estudio deIDC).7 De modo complementario, atendiendo a aspectospuramente económicos, las previsiones para el futuro cer-cano sobre el sector TIC son halagüeñas; Gartner Group 8

pronostica explícitamente una sólida recuperación de unaserie de sectores tecnológicos, entre los que se encuentranlos de gestión de contenidos, minería de datos, inteligen-cia de negocio y gestión del conocimiento. Si a este creci-

67

7 IDC Analyze the future. http://www.idc.com/8 http://www3.gartner.com/

Page 65: ISBN 84-95336-48-0 FUNDACIÓN COTEC PARA LA …informecotec.es/media/N21_Mineria_Datos.pdf · empresarial que tiene como misión contribuir al desarrollo del país mediante el

miento en el volumen de datos acompañamos cifras eco-nómicas asociadas al análisis y procesado de los mismos,el volumen resultante de negocio alrededor de la mineríade datos puede llegar a ser tremendamente importante, so-bre todo cuando la adecuada extracción de informaciónpuede llegar a ser vital para un negocio desde el punto devista de competitividad.

68

Page 66: ISBN 84-95336-48-0 FUNDACIÓN COTEC PARA LA …informecotec.es/media/N21_Mineria_Datos.pdf · empresarial que tiene como misión contribuir al desarrollo del país mediante el

6.1. RECORDANDO LOS OBSTÁCULOSPRIMARIOS

De los obstáculos primarios que se oponen a la implantaciónde la minería de datos hemos hablado ya: las indecisiones ymiedos de expertos y de clientes del negocio, así como la in-comprensión y la pasividad de las propias organizaciones yla ciega irrupción de los técnicos en mundos desconocidos.Obstáculos también son para el buen aprovechamiento delas íntegras posibilidades de la minería de datos los señala-dos mediante frases de uso común como dificultades gene-rales en el propio desarrollo del proceso. Pero aquí no pre-tendemos repetir, ni resumir siquiera, lo allí dicho: deseamosreferirnos a otros obstáculos, digamos secundarios, que sonlos que, vencidos los primarios, siguen obscureciendo el ca-mino hacia beneficios todavía mayores de la minería de da-tos: las oportunidades que se derivan de un planteamientocreativo de los correspondientes procesos.

6.2. LA MINERÍA DE DATOS «CREATIVA»

Lo nuevo y a la vez valioso, es decir, el resultado de la ac-tuación creativa, se considera crucial para el progreso delos negocios: desafortunadamente, pese a ello no se pro-

69

6SOBREOPORTUNIDADESY OBSTÁCULOS

Page 67: ISBN 84-95336-48-0 FUNDACIÓN COTEC PARA LA …informecotec.es/media/N21_Mineria_Datos.pdf · empresarial que tiene como misión contribuir al desarrollo del país mediante el

picia tal modo de actuación... Una discusión sobre la creatividad, los obstáculos para que se manifieste y cómopotenciarla no cabe en esta páginas. Pero al menos unapunte que permita entrever las oportunidades de aumen-tar el provecho de la minería de datos mediante plantea-mientos creativos no debe omitirse.Se ha dicho que la minería de datos busca dar respuestasa preguntas importantes para el ámbito o negocio en quese aplica: de hecho, un método directo es la formulaciónde preguntas, y su única limitación está precisamente en lacapacidad de elegirlas. Y ya decía Pablo Picasso que losordenadores son inútiles porque sólo saben dar respues-tas... Si se acierta con las preguntas, sin imponer innecesa-rias restricciones, adentrándose en aspectos no completa-mente dirigidos a un objetivo específico, actuando con tran-quila libertad, construyendo las interrogaciones de modoverdaderamente explorativo, las posibilidades se multipli-can. No podremos exponer aquí nada más que unos cuan-tos ejemplos: creemos que serán suficientes para ilustrar lasposibilidades adicionales de la minería de datos.La cuestión de la relevancia de los datos se aprecia comofundamental por expertos y técnicos. Pero pocas veces sur-ge la pregunta: ¿Qué otros datos podrían ser relevantespara mi problema? Y así, se renuncia a examinar algunosya disponibles o a incorporar otros fácilmente accesibles,y se cae en un estancamiento rutinario. Ejemplo de respuesta que involucra datos disponibles: aunsabiendo que en el movimiento está la verdadera informa-ción —con él se desarrollan los sistemas nerviosos en losseres vivos—, en muchas ocasiones se incluye un «saldomedio» como única variable en un proceso de Minería. Elsaldo varía: no considerar que en esa variación hay infor-mación valiosa supone limitar indebidamente la potenciadel proceso. Supongamos que las oscilaciones del saldoson infrecuentes y pequeñas respecto al valor medio: ¿nose deduce que el cliente probablemente dispone de otrosrecursos (en particular, si hay una nómina domiciliada)?

70

Page 68: ISBN 84-95336-48-0 FUNDACIÓN COTEC PARA LA …informecotec.es/media/N21_Mineria_Datos.pdf · empresarial que tiene como misión contribuir al desarrollo del país mediante el

Supongamos que las variaciones del saldo tienen una dis-tribución temporal absolutamente regular: ¿no implica queel cliente ha planificado cuidadosamente la gestión deesos fondos? Supongamos que sólo esporádicamente seproducen retiradas de cantidades apreciables, tras un lar-go perfil creciente del saldo; ¿no se trata de un indicadorde oportunidad?... Naturalmente, consideraciones análo-gas puedan hacerse sobre la dinámica de las llamadas te-lefónicas, de las compras en una gran superficie, etc., etc.Ejemplo de datos que se pueden conseguir con facilidad:ante una solicitud de crédito, ¿sería relevante saber quéotras cosas, aparte de las contenidas en un formulario, de-sea hacer notar el solicitante? Está claro que, ofreciendoesa posibilidad, el cliente no sólo se sentirá más aprecia-do, sino que puede suministrar datos de carácter personal—incluso emocionales— que no proveería de otro modo.Y no creemos que nadie discuta hoy la importancia de losaspectos emocionales en la conducta de las personas.Abandonemos ya los ejemplos relativos a la primera delas preguntas que hemos propuesto, pese a que podría ex-tenderse la lista hasta ocupar muchísimas páginas. Consi-deremos otra pregunta: ¿Es posible aprender algo másque lo relativo al objetivo específico de un proceso de mi-nería de datos?Como inicio de los ejemplos correspondientes, volvamos alúltimo anterior. Si un cierto número de clientes a los que seles pide que añadan lo que consideren apropiado desta-ca un cierto factor del que disponemos (aunque sea oca-sionalmente) y no hacemos uso, y si comprobamos su re-levancia: ¿no cabe la posibilidad de sistematizar su ob-tención y consideración? Si en un proceso que incluye laentrevista o la cumplimentación de un cuestionario se ob-serva a posteriori que ciertos campos son irrelevantes yotros no, ¿no se puede revisar el cuestionario con ventaja?Item más: ¿no sería posible entrenar a los entrevistadorespara que las entrevistas proporcionasen mejores datos y,consiguientemente, mayor información?

71

Page 69: ISBN 84-95336-48-0 FUNDACIÓN COTEC PARA LA …informecotec.es/media/N21_Mineria_Datos.pdf · empresarial que tiene como misión contribuir al desarrollo del país mediante el

Los anteriores son ejemplos inmediatos del «metaaprendi-zaje» que se puede derivar de procesos de minería de da-tos: no nos parece preciso insistir en que también es posi-ble encontrar muchas otras respuestas acerca de lo que laorganización y sus componentes pueden conocer sobre loque hacen y lo que deberían, o no deberían, hacer.No se acaban aquí las preguntas y los ejemplos de respues-tas: ante la cuestión ¿Dónde hay oportunidad de aplicar conprovecho la minería de datos? surgiría una lista intermina-ble; pero, si se considera como requisito la novedad, cabepensar en la prevención en los sistemas de Salud, en la pro-actividad en la atención al ciudadano, en la planificación dela actuación de las fuerzas de seguridad, en... Aquí el lectorañadirá casos que nosotros no imaginamos siquiera. También hay preguntas de carácter (aparentemente) muytécnico que inducen respuestas de alto valor: así la in-terrogación ¿Cómo puedo mejorar la fiabilidad de un pro-ceso de segmentación? podría llevar a contestarse quecomprobando la consistencia de los segmentos: por ejem-plo, intentando predecir características de un segmento apartir de datos de otros. Lo anterior no sólo posibilita apre-ciar inconsistencias: también influencias y mecanismos deacción-reacción cuyo conocimiento puede ser decisivo.Invitar a un comportamiento creativo —una vez superadaslas primeras barreras que se alzan ante la minería de da-tos— no es una mera cortesía: es una receta para el ver-dadero éxito. Los humanos empleamos para nuestros pro-cesos mentales tanto mecanismos deliberativos cuanto me-canismos tácitos o intuitivos, y ahí está nuestra ventaja.9

Combinarlos en la exploración que suponen los procesosde minería de datos posibilita ganar profundidad, com-prensión... y conocimiento.

72

9 Queremos aprovechar el momento para explicitar nuestra firme convicciónde que también estará la de los expertos que admitan manejar técnicas «inex-plicables» y reflexionar sobre sus resultados... No hay que despreciar radical-mente lo que, con cierto abuso, podría llamarse la «intuición» de las máquinas.

Page 70: ISBN 84-95336-48-0 FUNDACIÓN COTEC PARA LA …informecotec.es/media/N21_Mineria_Datos.pdf · empresarial que tiene como misión contribuir al desarrollo del país mediante el

7.1. CENTROS DE I+D+i

7.1.1. Instituto de Ingeniería del Conocimiento(IIC)

El Instituto de Ingeniería del Conocimiento (IIC) es unCentro Tecnológico de Innovación que focaliza su acti-vidad en el campo de la gestión del conocimiento, prin-cipalmente en dos áreas: «Capital Humano», relaciona-da con el desarrollo de sistemas para el ámbito de losrecursos humanos, y «Minería de Datos y Conocimien-to», centrada en la detección de patrones de comporta-miento para el desarrollo de sistemas de detección defraude.

Dirección postal: UAM - Cantoblanco, Escuela Politécnica SuperiorEdificio B, 5.ª planta 28049 Madrid, España

Correo electrónico: [email protected]éfono: +34 91 497 23 23Fax: +34 91 497 23 34Página web: http://www.iic.uam.es/

73

7RELACIÓN DEPRESTADORESDE SERVICIOS

Page 71: ISBN 84-95336-48-0 FUNDACIÓN COTEC PARA LA …informecotec.es/media/N21_Mineria_Datos.pdf · empresarial que tiene como misión contribuir al desarrollo del país mediante el

7.1.2. Grupo de Tratamiento de Datos en laUniversidad Carlos III de Madrid (GTD-UCIIIM)

La I+D del GTD-UCIIIM se centra en el desarrollo de nue-vos algoritmos neuronales y evolutivos para su aplicaciónen problemas de minería de datos orientada fundamental-mente a aspectos de negocio. El GTD mantiene una activi-dad de I+D en temas de concepción y diseño de algorit-mos neuronales y evolutivos, como son la propuesta denuevos objetivos, el desarrollo de versiones «on-line», lacombinación de aprendizaje y evolución y la interpreta-ción de la actuación de los algoritmos. Simultáneamente,lleva a cabo la aplicación de los resultados a problemasreales de márquetin y negocio, financieros, de gestión dela información y de diagnóstico clínico e industrial, y, se-cundariamente, de comunicaciones y de tratamiento de se-ñales. Dispone de capacidades de diseño y desarrollo denuevos algoritmos para minería de datos, además de ca-pacidad para formación y consultoría sobre el tema.

Dirección postal: Departamento de Teoría de la Señaly ComunicacionesUniversidad Carlos III de Madrid Avda. Universidad, 3028911-Leganés, Madrid, España

Correo electrónico: [email protected], [email protected]éfono: +34 91 624 99 23Fax: +34 91 624 87 49Página web: http:/www.uc3m.es

7.1.3. Grupo MIP: programación inductivamultiparadigma

Grupo de investigación centrado en el entrenamiento demodelos comprensibles bajo distintos paradigmas: progra-mas de lógica funcional, árboles de decisión y listas de de-cisión. Sus áreas de investigación son: programación in-

74

Page 72: ISBN 84-95336-48-0 FUNDACIÓN COTEC PARA LA …informecotec.es/media/N21_Mineria_Datos.pdf · empresarial que tiene como misión contribuir al desarrollo del país mediante el

ductiva multiparadigma, aprendizaje máquina y mineríade datos, descubrimiento de conocimiento, análisis ROC,aprendizaje sensible al coste y evaluación de modelospara aplicaciones de ayuda a la decisión, así como elaprendizaje de modelos declarativos a partir de los datos.

Dirección postal: Grupo MIPDepartamento de SistemasInformáticos y ComputaciónUniversidad Politécnica de ValenciaCamino de Vera s/n46022 Valencia, España

Correo electrónico: [email protected]éfono: +34 96 387 73 50Fax: +34 96 387 73 59Página web: http:/http://www.dsic.upv.es/~flip

7.2. CONSULTORES Y DESARROLLADORES

7.2.1. Daedalus

Daedalus es una compañía fundada en 1998 como «spin-off» de la UPM y la UAM. Actualmente tiene 25 emplea-dos y tiene un capital 100% privado. Sus actividades secentran en el sector de Tecnologías de la InformaciónAvanzadas, siendo las áreas principales de actividad: tec-nología lingüística para recuperación de información, mi-nería web, optimización de sistemas complejos, mineríade datos y tecnologías inalámbricas, gestión del conoci-miento, extracción y recuperación de la información, cate-gorización de textos y perfilado de usuarios.

Dirección postal: CentralDAEDALUS, S. A.C/ López de Hoyos 15, 3.º28006 Madrid, SPAIN

75

Page 73: ISBN 84-95336-48-0 FUNDACIÓN COTEC PARA LA …informecotec.es/media/N21_Mineria_Datos.pdf · empresarial que tiene como misión contribuir al desarrollo del país mediante el

Departamento técnicoDAEDALUS, S. A.Centro de Empresas «La Arboleda»Carretera N-III, km 7,30028031 Madrid, SPAIN

Correo electrónico: [email protected]éfono: +34 91 332 43 01Fax: +34 91 331 97 40Página web: http://www.daedalus.es/

7.2.2. ISOCO, S.A.

ISOCO (Intelligent Software Components, S.A.) es unaempresa fundada en 1999 por un grupo de investigado-res procedentes del Instituto de Investigación en Inteligen-cia Artificial, perteneciente al Consejo Superior de Inves-tigaciones Científicas (CSIC). ISOCO crea y desarrollaconstantemente soluciones innovadoras basadas en lasmás avanzadas tecnologías y en técnicas de InteligenciaArtificial, comprendiendo soluciones para aprovisiona-miento estratégico, agregación inteligente, gestión del co-nocimiento, gestión de documentos oficiales y certifica-ciones, personalización en tiempo real, o visualizacionesde Internet.

Dirección postal: BarcelonaAlcalde Barnils, 64-68Edificio Testa - bl. A08190 Sant Cugat del Vallès

Teléfono: 93 567 72 00Fax: 93 567 73 00

MadridFrancisca Delgado, 11 - 2.º28108 Alcobendas, Madrid

Teléfono: 91 334 97 97Fax: 91 334 97 99

76

Page 74: ISBN 84-95336-48-0 FUNDACIÓN COTEC PARA LA …informecotec.es/media/N21_Mineria_Datos.pdf · empresarial que tiene como misión contribuir al desarrollo del país mediante el

ValenciaEdificio Trade Center Profesor Beltrán Báguena, 4 of. 10746009 Valencia

Teléfono: 96 346 71 43Fax: 96 348 28 94Correo electrónico: [email protected]ágina web: http://www.isoco.es

7.2.3. Meta4 Spain, S.A.

Meta4 es un proveedor importante de soluciones para lagestión y el desarrollo del capital humano e intelectual anivel mundial. Fundada en 1991, Meta4 cuenta con másde 900 clientes en 18 países y sus soluciones gestionan4,5 millones de personas en tres continentes. Meta4cuenta con más del 45% de cuota de mercado en Espa-ña (Estudio IDC, 2003). Las oficinas de la compañía,con 424 empleados, están ubicadas en Barcelona, Bue-nos Aires, Lisboa, Madrid, México DF, Santiago de Chi-le y París. Recientemente ha sido adquirida por el grupoAdonix.

Dirección postal: Centro Europa EmpresarialEdificio Roma - C/ Rozabella, 828230 Las Rozas, Madrid, España

Correo electrónico: [email protected]éfono: +34 91 634 85 00Fax: +34 91 634 84 80Página web: www.meta4.com

7.2.4. Cognodata Consulting

Cognodata Consulting ofrece servicios de consultoría so-bre optimización de campañas comerciales, captación se-

77

Page 75: ISBN 84-95336-48-0 FUNDACIÓN COTEC PARA LA …informecotec.es/media/N21_Mineria_Datos.pdf · empresarial que tiene como misión contribuir al desarrollo del país mediante el

lectiva de clientes de alto valor, aumento de la rentabili-dad mediante la maximización de ventas cruzadas, seg-mentación y priorización de nuevos mercados, valoracióndel nivel de calidad de datos, depuración y enriqueci-miento de datos, análisis de oportunidades de creación devalor mediante análisis estratégico de datos, formación enanálisis de datos con tecnología de minería de datos, apo-yo en la creación de departamentos internos de análisis dedatos y colaboración puntual en la construcción de mode-los de minería de datos.

Dirección postal: C/ Lagasca, 120, oficina 4 28006 Madrid, España

Correo electrónico: [email protected]éfono: +34 91 411 63 15Fax: +34 91 563 63 83Página web: http://www.cognodata.com/

7.2.5. IONE Consulting

Empresa de servicios de consultoría sobre minería web,especialmente para tareas de construcción de perfiles de audiencia demográfico y psicográfico, análisis del tráfi-co web, estudios del comportamiento de los usuarios (mi-nería de uso de la web), para tareas de mejora del ser-vicio, márquetin y rendimiento del sitio web, todo ellomediante la aplicación de técnicas de minería sobre losficheros de registro de acceso almacenados en los servi-dores.

Dirección postal: C/ Juan de la Cosa, 2, local 2H29600 Marbella, Málaga, España

Correo electrónico: [email protected]éfono: +34 952 867 359Fax: no disponiblePágina web: http://www.ioneconsulting.net

78

Page 76: ISBN 84-95336-48-0 FUNDACIÓN COTEC PARA LA …informecotec.es/media/N21_Mineria_Datos.pdf · empresarial que tiene como misión contribuir al desarrollo del país mediante el

7.2.6. Sigma Consultores Estadísticos

Sigma Consultores Estadísticos es una empresa especiali-zada en el análisis cuantitativo de datos y proporciona ser-vicios de consultoría, de diseño e implementación de todotipo de investigaciones cuantitativas y ofrece la posibilidadde desarrollar herramientas de software a medida.

Dirección postal: C/ Miguel Servet, 88, 5-150013 Zaragoza, España

Correo electrónico: [email protected]éfono: +34 976 42 82 94Fax: no disponiblePágina web: http://www.consultoresestadisticos.com/

7.2.7. CHS Data Systems

Empresa para el asesoramiento, desarrollo e implementa-ción de soluciones basadas en minería de datos para ges-tión de la relación del cliente («Customer Relationship Management», CRM), ofreciendo también consultoría enservicios informáticos y soluciones CRM integradas, cu-briendo todo el campo relacionado con la gestión de losclientes —desde las soluciones operativas (Inteligencia deNegocio y minería de datos— hasta la completa integra-ción de todos los procesos y sistemas.

Dirección postal: Central CHS S.L.Avda. Ricardo Soriano, 12Edificio Marqués de Salamanca1.ª planta, oficinas 2 y 329600 Marbella, Málaga, España

Teléfono: +34 952 76 66 80Fax: +34 952 86 81 64

MadridC/ José Abascal, 44, planta 4.ª28003 Madrid, España

79

Page 77: ISBN 84-95336-48-0 FUNDACIÓN COTEC PARA LA …informecotec.es/media/N21_Mineria_Datos.pdf · empresarial que tiene como misión contribuir al desarrollo del país mediante el

Teléfono: +34 91 442 48 89Fax: +34 91 442 48 89

ValenciaC/ Jordi de Sant. Jordi, 10, 4.ª46950 Xirivella, Valencia, España

Teléfono: +34 963 832 993Fax: +34 952 868 164Correo electrónico: [email protected]ágina web: http://www.chs.es

7.2.8. Atos Origin

Atos Origin es un suministrador importante en consultoríaen Tecnologías de la Información, integración de sistemasy servicios de redes e infraestructuras tanto para la indus-tria energética como para el sector público y los mercadosde telecomunicaciones y finanzas

Dirección postal: C/ Albarracín, 2528037 Madrid, España(Otras 5 sedes en Valladolid, Vigo,Barcelona, Sevilla y Bilbao; direc-ciones en http://www.schlumberger-sema.es/locations.htm)

Correo electrónico: [email protected]éfono: +34 91 440 88 00Fax: +34 91 754 32 52Página web: http://www.sema.atosorigin.com/

Antigua URL en España, todavía activa: http://www.schlumbergersema.es/

7.2.9. Deloitte Consulting

Empresa de consultoría que proporciona soluciones inte-grales de gestión de empresa, capital humano, estrategia

80

Page 78: ISBN 84-95336-48-0 FUNDACIÓN COTEC PARA LA …informecotec.es/media/N21_Mineria_Datos.pdf · empresarial que tiene como misión contribuir al desarrollo del país mediante el

y operación, e integración tecnológica. Desarrolla servi-cios de minería tales como CRM, gestión de contenidos, ymárquetin inteligente. Dirección postal: Madrid

Torre Picasso, planta 34Plaza Pablo Ruiz Picasso, s/n28020 Madrid, España

Teléfono: +34 91 335 08 00Fax: +34 91 555 67 84

BarcelonaMoll de Barcelona, s/nWorld Trade CenterEdificio Sur - 7.ª planta08039 Barcelona, España

Teléfono: +34 93 508 84 84Fax: +34 93 508 84 85Correo electrónico: No disponible, pero sí una página

de contacto electrónico:http://www.dc.com/ContactUs/

Página web: http://www.dc.com/

7.2.10. Soluziona

Empresa de soluciones integrales de consultoría en el ámbitode la gestión empresarial y las Tecnologías de la Información.Dirección postal: Paseo de la Habana, 101

28036 MadridTeléfono: +34 91 210 20 00Fax: +34 91 344 03 86

Otras muchas oficinas en Madrid yotras ciudades españolas, listadocompleto disponible en: http://www.soluziona.es/htdocs/areas/soluziona/empresa/oficinas/espana.shtml

81

Page 79: ISBN 84-95336-48-0 FUNDACIÓN COTEC PARA LA …informecotec.es/media/N21_Mineria_Datos.pdf · empresarial que tiene como misión contribuir al desarrollo del país mediante el

Correo electrónico: No disponible, pero sí una página decontacto electrónico: http://www.soluziona.es/htdocs/global/utilidades/contacta/index.shtml

Página web: http://www.soluziona.es/

7.2.11. Indra

Indra es una compañía española con alta presencia enTecnologías de la Información y Sistemas de Defensa. Mediante el Centro de Soluciones Business Intelligenceasesora a los clientes sobre el almacenamiento, transfor-mación y utilización de la información dentro de la orga-nización. Sus soluciones y servicios están basados en Mo-delos de Gestión (Scorecard, Dashboard, ABC/ABM...) yAnálisis (Query & Reporting, OLAP, Data Mining...) sopor-tados por plataformas y productos de software.

Dirección postal: Avda. de Bruselas, 3528108 Alcobendas (Madrid)

Teléfono: +34 91 480 50 00Fax: +34 91 480 50 57Correo electrónico: [email protected]ágina web: http://www.indra.es

7.3. PROVEEDORES

7.3.1. IBM

Empresa de primera fila en todo el mundo en Tecnologíasde la Información y las Comunicaciones, que ofrece servi-cios de consultoría, y comercializa alguna de las herra-mientas de minería de datos más conocidas, como «DB2OLAP Server», «Intelligent Miner for Data», o «IntelligentMiner for Text».

82

Page 80: ISBN 84-95336-48-0 FUNDACIÓN COTEC PARA LA …informecotec.es/media/N21_Mineria_Datos.pdf · empresarial que tiene como misión contribuir al desarrollo del país mediante el

Dirección postal: C/ Santa Hortensia, 26-2828002 Madrid

Teléfono: +34 91 397 66 11Fax: +34 91 519 39 87Correo electrónico: No disponiblePágina web: http://www.ibm.com/es/

7.3.2. SPSS Ibérica

Empresa con más de treinta años de experiencia en herra-mientas analíticas para minería de datos y análisis esta-dístico, con productos como Clementine, AnswerTree, Lexi-Quest o CFO Suite.

Dirección postal: Plaza de Colón, 2Torres de Colón, torre II, planta 1628046 Madrid

Teléfono: +34 902 123 606Fax: +34 91 308 35 21Correo electrónico: [email protected]ágina web: http://www.spss.com/es/

7.3.3. SAS

Empresa fundada en los Estados Unidos hace veinticincoaños y presente en muchos países. Es una compañía ex-perta en soluciones de minería de datos, con herramientascomo «Enterprise Miner» o «SAS Text Miner».

Dirección postal: SAS Institute, S.A.Avda. Manoteras, 4428050 Madrid

Teléfono: +34 91 200 73 00Fax: + 34 91 200 73 01Correo electrónico: [email protected]ágina web: http://www.sas.com/spain/

83

Page 81: ISBN 84-95336-48-0 FUNDACIÓN COTEC PARA LA …informecotec.es/media/N21_Mineria_Datos.pdf · empresarial que tiene como misión contribuir al desarrollo del país mediante el

7.3.4. The Mathworks

Empresa experta en software científico y de simulación anivel mundial. Aunque no específica de minería de datos,su principal herramienta, Matlab/Simulink, es muy usadapara llevar a cabo tal tipo de tareas.

Dirección postal: C/ París, 179-181, 1º, 2ª A08036 Barcelona

Teléfono: +34 93 362 13 00Fax: +34 93 200 95 56Correo electrónico: [email protected]ágina web: http://www.mathworks.es

84

Page 82: ISBN 84-95336-48-0 FUNDACIÓN COTEC PARA LA …informecotec.es/media/N21_Mineria_Datos.pdf · empresarial que tiene como misión contribuir al desarrollo del país mediante el

De acuerdo con lo indicado en el texto principal, se dedicaeste apéndice a una somera presentación de técnicas, másuna exposición de sus ventajas e inconvenientes, sin aspira-ción alguna de exhaustividad: en particular, se omiten algu-nos procedimientos aún en desarrollo que, por ello, no hanalcanzado presencia significativa en la minería de datos(como son las redes bayesianas, los filtros de partículas, lasmáquinas de núcleos y vectores soporte, etc.), así comootros cuyo principal empleo se encuentra en el diseño y laoptimización, aunque eventualmente puedan utilizarse paradecisión o estimación (algoritmos genéticos, evolutivos, so-ciales, etc.). Se completará el apéndice con una breve revi-sión de las tendencias más importantes, así como con unaspalabras sobre las tres clases de herramientas (comercialesespecíficas, comerciales de propósito general y «software»de elaboración «ad hoc») a las que se puede recurrir paraimplementar el uso de las anteriormente citadas tecnologías.

TÉCNICAS

Visualización

Tradicionalmente, se entiende como visualización la repre-sentación de algunas de las variables que constituyen los

85

APÉNDICE ILAS TECNOLOGÍASPARA (EL TRATAMIENTOEN) LA MINERÍA DEDATOS

Page 83: ISBN 84-95336-48-0 FUNDACIÓN COTEC PARA LA …informecotec.es/media/N21_Mineria_Datos.pdf · empresarial que tiene como misión contribuir al desarrollo del país mediante el

datos en prácticamente cualquier forma fácilmente compren-sible: como nubes de puntos, histogramas, mapas, grafos,etcétera. Hasta pueden incluirse aquí métodos que se tienencomo propios de otras técnicas que no son consideradas es-trictamente como minería de datos: así, las representacionesjerárquicas (en ramificaciones consecutivas según el com-portamiento de sucesivas variables) o los cubos, que sonprocedimientos típicos de lo que se conoce como procesa-miento analítico «On Line» («On Line Analytical Processing»,OLAP). Un cubo representa en cada una de sus tres dimen-siones una variable (habitualmente temporal, espacial y denegocio), y en los subcubos resultantes el número de casosregistrado: véase la Figura AI.1, que resulta autoexplicativa.Además de la obvia limitación del número de dimensionesvisualizable, el empleo de las técnicas de visualización eneste modo tradicional, sobre los datos, tiene de cierto unapotencia muy limitada: sólo resaltará relaciones llamativasentre las variables que se están observando, lo que si bienpuede tener importancia cuando la tienen dichas relacio-nes, y en todo caso puede ayudar al observador a com-prender el problema que se considere, no permite apreciarrelaciones de gran complejidad. No obstante, no hay queolvidar que el sistema visual humano está muy bien prepa-rado para percibir información.

86

Figura AI.1:Cubo de datos representando volumen de ventas: su examen se ha de hacer re-corriendo las capas en la dimensión perpendicular al papel.

Page 84: ISBN 84-95336-48-0 FUNDACIÓN COTEC PARA LA …informecotec.es/media/N21_Mineria_Datos.pdf · empresarial que tiene como misión contribuir al desarrollo del país mediante el

Limitaciones:

● potencia muy limitada● puede producir equívocos

Ventajas:

● gran comodidad● fácil interpretación

Recomendaciones de uso:

● como técnica exploratoria y auxiliar para y con otras

Preguntas

Como en el caso de la visualización, las preguntas no sesuelen considerar estrictamente incluidas entre las técnicasde minería de datos, sino como una herramienta para exa-men exploratorio de los datos disponibles: mediante cues-tiones sencillas como «¿cuál es la frecuencia relativa de loscasos que corresponden a la categoría C y cuya variablexi supera el valor Xi?». Para ello existen incluso lenguajescomputacionales «ad hoc» (como el «Structured QueryLanguage», SQL, para bases de datos relacionales). Pero,también como en el caso de la visualización, un empleomás inteligente de las preguntas propicia la obtención deinformación valiosa, sobre todo si se dirigen a relacionesque incluyan variables intermedias, resultados y errores.

Limitaciones:

● dependencia de la habilidad del usuario● puede producir equívocos

Ventajas:

● interpretabilidad● abre vías creativas

87

Page 85: ISBN 84-95336-48-0 FUNDACIÓN COTEC PARA LA …informecotec.es/media/N21_Mineria_Datos.pdf · empresarial que tiene como misión contribuir al desarrollo del país mediante el

Recomendaciones de uso:

● como técnica exploratoria y combinable con otras

Métodos semianalíticos (estadísticos)

Los métodos analíticos (estadísticos) más elaborados co-rresponden a la denominada como formulación bayesia-na: se suponen conocidas las propiedades del problema(probabilidades «a priori» de las clases y verosimilitudesde las observaciones en clasificación; en estimación, den-sidades de probabilidad de la magnitud que se pretendeestimar y verosimilitudes de los datos dada ésta), que cons-tituyen un modelo, y se define una política de costes aso-ciada a los errores; tras de lo que se minimiza analítica-mente el coste medio de la clasificación o estimación quese va a realizar, encontrando así la solución al problema.Las dificultades se centran en la validez del conocimientoque se supone: si se adopta un modelo equivocado, estosmétodos, teóricamente óptimos, se degradan muy sensible-mente. La vía semianalítica consiste en extraer la información pre-cisa para la formulación (verosimilitudes, etc.) a partir delos datos: con ello, se reduce el riesgo de adoptar un mo-delo desafortunado; especialmente si se recurre para elloa las llamadas técnicas no paramétricas (frecuencia relati-va, vecinos más próximos, ventanas de Parzen, etc.), queno hacen hipótesis alguna sobre la forma de las compo-nentes del modelo.En estadística clásica se recurre también a los métodos fre-cuentistas, que se basan en los estimadores muestralespara la estimación de los estadísticos de las variables: unestimador muestral simplemente promedia valores observa-dos de la magnitud de que se trate. En el caso de la cla-sificación, se aceptan para las hipótesis modelos sencillosque difieren en sus parámetros, y se procede contrastandolos efectos que producen las estimaciones de éstos por vía

88

Page 86: ISBN 84-95336-48-0 FUNDACIÓN COTEC PARA LA …informecotec.es/media/N21_Mineria_Datos.pdf · empresarial que tiene como misión contribuir al desarrollo del país mediante el

muestral. Se trata, per se, de vías de tipo semianalítico:cuya potencia queda limitada por los modelos que seadopten.

Limitaciones:

● carácter subóptimo● robustez limitada

Ventajas:

● potencia intermedia-alta● hay costumbre para interpretar sus resultados

Recomendaciones de uso:

● en problemas sencillos o de los que haya un conoci-miento razonable

Árboles de decisión

Son modelos lógicos que representan una partición binariarecursiva del conjunto de muestras etiquetadas disponiblesatendiendo a decisiones o preguntas sobre una o más va-riables, obteniéndose finalmente un modelo de decisión enforma de árbol binario, lo que les da su nombre. En la terminología de árboles se maneja una serie de ele-mentos, que comprenderemos mejor haciendo referencia aun caso particular de toma de decisión acerca de la reali-zación de una operación financiera mediante crédito ocontado:

● nodo raíz: primer nodo del árbol, que representa elconjunto de todos los datos antes de realizar ningunapartición.

● nodo hoja: nodo terminal del árbol, que representa unode los subconjuntos de datos que tienen asociada de-terminada decisión final.

89

Page 87: ISBN 84-95336-48-0 FUNDACIÓN COTEC PARA LA …informecotec.es/media/N21_Mineria_Datos.pdf · empresarial que tiene como misión contribuir al desarrollo del país mediante el

● atributos: variables de las que depende tomar una de-cisión u otra, en este ejemplo, los atributos son «impor-te» y «solvencia».

● tests o reglas: evaluaciones de los atributos que decidensi se toma una decisión final o bien se prosigue con laevaluación.

● decisión final: en este caso es binaria: se decide entre«contado» o «crédito».

Para un patrón de entrada dado, si se recorre el árboldesde el nodo raíz hasta una de las hojas finales, se ob-tendrá la decisión correspondiente para dicho patrón. Enla siguiente figura representamos el árbol de decisión re-sultante:

La interpretación de dicha figura es inmediata, y se resumecon los siguientes predicados:

• Si el importe es menor de 600 €, entonces la decisión =contado.

90

Fig. AI.2Arbol de decisión binaria

Nodo raízTodos los datos

Nodo intermedioImporte entre

600 € y 3.000 €Nodo hoja 1Importe < 600 € o

> 3000 Decisión = Contado

Nodo hoja 2Solvencia = baja

Decisión = Contado

Nodo hoja 3Solvencia = alta

o mediaDecisión = Contado

Page 88: ISBN 84-95336-48-0 FUNDACIÓN COTEC PARA LA …informecotec.es/media/N21_Mineria_Datos.pdf · empresarial que tiene como misión contribuir al desarrollo del país mediante el

• Si el importe es mayor de 3.000 €, entonces la decisión= contado.

• Si el importe está entre 600 € y 3.000 € y la solvenciaes alta, entonces la decisión = crédito.

• Si el importe está entre 600 € y 3.000 € y la solvenciaes media, entonces la decisión = crédito.

• Si el importe está entre 600 € y 3.000 € y la solvenciaes baja, entonces la decisión = contado.

Existen métodos inductivos muy eficientes que, a partirde un conjunto de ejemplos etiquetados, permiten esti-mar el conjunto de tests o condiciones que se debanaplicar, así como la estructura en árbol resultante. De entre los más conocidos podemos citar los algoritmosID3 y C4.5.

Limitaciones:

● construcción no inmediata● mala generalización● adaptatividad dificultosa

Ventajas:

● fácil e intuitiva interpretación

Recomendaciones de uso:

● en problemas generales, cuando no sea crítica la ob-tención de una solución (cercana a la) óptima.

Sistemas expertos (ES: «Expert Systems»)

Son esquemas lógicos que condensan el conocimiento deun experto humano sobre una determinada materia o ám-bito de aplicación, de tal modo que permiten posterior-

91

Page 89: ISBN 84-95336-48-0 FUNDACIÓN COTEC PARA LA …informecotec.es/media/N21_Mineria_Datos.pdf · empresarial que tiene como misión contribuir al desarrollo del país mediante el

mente imitar dicho comportamiento o razonamiento 10 ex-perto. Habitualmente, dicha explicitación del conocimiento huma-no se lleva a cabo mediante la definición, en una primeraetapa, de categorías que representen a un determinadoámbito, por ejemplo: «comida», «bebida», «carne», «pes-cado», «vino tinto», «vino blanco». A continuación, el co-nocimiento experto se puede reflejar en conjuntos de re-glas del tipo «si X entonces Y», ya que una de las princi-pales aplicaciones de tales sistemas es la toma dedecisiones. Por ejemplo, para el caso de las categorías an-teriormente mencionadas, una regla procedente de un ex-perto podría ser: «si eliges carne como comida, entonceselige vino tinto como bebida», o bien «si eliges pescadocomo comida, entonces elige vino blanco como bebida».No obstante, también es posible encontrarse con esque-mas más complejos/flexibles como los denominados de ló-gica difusa («Fuzzy Logic»), que permiten trabajar con de-cisiones «blandas» o grados de pertenencia de elementosa conjuntos («poco alto», «medianamente alto», «muyalto», o sus grados intermedios), o los que incorporan cier-to componente de interpretación/análisis sintáctico-semán-tico de los datos presentados (en este caso, habitualmenteen forma de lenguaje natural). Por continuar con el ejem-plo anterior, en el caso de que la comida elegida sea untipo particular de pescado de sabor fuerte, como el atún,la pertenencia del mismo a la clase «pescado» podría re-lajarse, de modo que se podría acercar un poco el atún alconcepto «carne», hasta el punto que la regla de elegirvino blanco perdería fuerza frente a la que sugiere elegirvino tinto. Si a esta reponderación de los pesos de perte-

92

10 Los términos «razonamiento» o «inteligencia» utilizados en esta sec-ción, deben interpretarse con toda cautela y entenderse como mecanismosrudimentarios muchas veces simplemente utilizando lenguajes lógico-mate-máticos. Todavía estamos lejos de ver auténticas máquinas «pensantes», sialguna vez son posibles…

Page 90: ISBN 84-95336-48-0 FUNDACIÓN COTEC PARA LA …informecotec.es/media/N21_Mineria_Datos.pdf · empresarial que tiene como misión contribuir al desarrollo del país mediante el

nencia a las clases, añadimos alguna información a prioridel tipo «el cliente Z prefiere casi siempre vino tinto», en-tonces el sistema casi con seguridad sugerirá tomar vinotinto con el atún, pese a ser éste un pescado. Estos últimoscasos estarían plenamente vinculados a técnicas de «razo-namiento» o inteligencia artificial («artificial inteligence»,AI). Una vez incorporado dicho conocimiento humano enel sistema, la forma de operar ante nuevos casos por re-solver suele llevarse a cabo mediante una metodología depregunta-respuesta al usuario, de modo que el sistema ex-perto interactúa con el usuario hasta producir una decisiónfinal. Una importante funcionalidad que se espera de un sistemaexperto es poder expresar o explicar de forma comprensiblepara un usuario humano las vías de «razonamiento» (reglasheurísticas) que le han llevado a tomar la decisión final. No obstante, pese a ser un concepto muy interesante y apriori sencillo, su implementación práctica no está exentade problemas graves: verificación de consistencia de lasreglas introducidas por los expertos, control de la buenageneralización ante nuevos casos, explicabilidad/interpre-tación con complejidad reducida, etc.

Limitaciones:

● construcción difícil● potencia limitada● mala generalización ● dificultad de obtener diseños adaptativos

Ventajas:

● proveen la interpretación

Recomendaciones de uso:

● en problemas muy concretos de complejidad moderada ● para situaciones forenses (directamente o extraídas

como aproximación a otras máquinas)

93

Page 91: ISBN 84-95336-48-0 FUNDACIÓN COTEC PARA LA …informecotec.es/media/N21_Mineria_Datos.pdf · empresarial que tiene como misión contribuir al desarrollo del país mediante el

Métodos basados en memoria

Son técnicas de fundamento muy sencillo: se almacenanen una memoria muestras etiquetadas y, ante la apari-ción de un nuevo caso, se busca en la memoria la mues-tra almacenada cuyas variables toman valores más simi-lares a las del caso a resolver, y se le asigna a dichonuevo caso como clase la de la muestra seleccionada deeste modo.En puridad, estos procedimientos no son más que aplica-ciones directas de la técnica no paramétrica conocidacomo la del «vecino más próximo» («Nearest Neighbour»,NN), muy tradicional en otras aplicaciones de clasificaciónde base estadística. En los métodos basados en memoria sesuelen aplicar medidas de similitud variadas y que muchasveces tienen en cuenta el conocimiento de quien realiza elproceso de minería. Ni que decir tiene que una adecuadaelección de la medida de similitud tiene importancia decisi-va en las prestaciones de estos procedimientos.Dicho lo anterior, se deduce de inmediato cuál es el de-fecto fundamental y la más inmediata vía de mejora de es-tas técnicas. El defecto radica en lo que se conoce como«amplificación del ruido»: aun suponiendo que las medi-das de similitud sean acertadas, cualquier valor atípico enuna instancia etiquetada contribuye a que muestras nuevastiendan a clasificarse mal. Utilizar la extensión conocidacomo «K vecinos más proximos», en que se clasifica segúnla etiqueta mayoritaria de entre las de los K ejemplos dereferencia más similares, reduce los efectos de la amplifi-cación del ruido y tiende, en general, a proporcionar me-jores prestaciones.

Limitaciones:

● gran dependencia de los datos y código● gran dependencia del criterio de similitud aplicado● prestaciones limitadas (tipo «vecino más próximo»)● interpretación discutible

94

Page 92: ISBN 84-95336-48-0 FUNDACIÓN COTEC PARA LA …informecotec.es/media/N21_Mineria_Datos.pdf · empresarial que tiene como misión contribuir al desarrollo del país mediante el

Ventajas:

● manejo muy sencillo(se espera mejorar su potencia en un futuro)

Recomendaciones de uso:

● en problemas muy concretos y razonablemente conoci-dos, de los que haya datos abundantes

Redes neuronales (NN: «Neural Networks»)

Son arquitecturas paralelo de elementos no lineales senci-llos dispuestos en capas; la figura AI.3 presenta un esque-

95

Fig. AI.3Esquema de red neuronal tipo perceptrón multicapa

Page 93: ISBN 84-95336-48-0 FUNDACIÓN COTEC PARA LA …informecotec.es/media/N21_Mineria_Datos.pdf · empresarial que tiene como misión contribuir al desarrollo del país mediante el

ma que corresponde a la arquitectura más conocida, elperceptrón multicapa («Multilayer Perceptron», MLP), en laque las flechas simbolizan multiplicaciones por los pará-metros (w) de la máquina, y las no linealidades son típi-camente tangentes hiperbólicas. No es ésta, se advierte, laarquitectura más recomendable, pese a su popularidad,para obtener las mejores prestaciones o para emplear enproblemas complejos.Para las redes neuronales en general:

Limitaciones:

● serias dificultades de diseño: elección de arquitectura,dimensionado, entrenamiento

● dificultad de interpretación

Ventajas:

● gran potencia● posibilidad de buena generalización● deterioro gradual ante fallos

Recomendaciones de uso:

● en situaciones generales: salvo necesidades forenses

TENDENCIAS

● En el diseño de sistemas expertos (y, en general, en elde todas las máquinas) va ganando aceptación el em-pleo de la «lógica difusa» («Fuzzy Logic»), en la que sesustituyen las dicotomías 0/1 por aproximaciones aprobabilidades y se manejan las variables continuascomo probabilidades de pertenecer a ciertos nivelescuánticos predefinidos sobre ellas (muy poco, poco, re-gular, mucho, muchísimo, p.ej.); aplicando unas reglaslógicas «difusas» que se dice que se asemejan a lasque manejamos los humanos.

96

Page 94: ISBN 84-95336-48-0 FUNDACIÓN COTEC PARA LA …informecotec.es/media/N21_Mineria_Datos.pdf · empresarial que tiene como misión contribuir al desarrollo del país mediante el

● En lo relativo a árboles, se trabaja en la automatizaciónde la inserción de redes neuronales para las ramifica-ciones y, desde muy recientemente, en la concepciónde versiones con ramificaciones «blandas» (es decir, noradicalmente excluyentes).

● Los métodos basados en memoria avanzan a partir dela proposición y prueba experimental de nuevos crite-rios de similitud, muchos de ellos «ad hoc»; y tambiénse benefician de extensiones de su forma de clasifica-ción (o estimación) basadas en la teoría de las «K veci-nos más próximos» (o sus versiones interpolativas): loque está aumentando sensiblemente su potencia y susposibilidades generales.

● En el ámbito de las redes neuronales, la familia cono-cida como máquinas de vectores soporte («SupportVector Machines», SVM) ha demostrado impresionan-tes prestaciones, en particular para decisión dicotómi-ca. Su fundamento (manejo de los datos como centrosde «núcleos» no lineales a los que acceden las mues-tras que se han de tratar, y selección y ponderaciónde los mismos maximizando una medida de separa-ción de las poblaciones de ejemplos) se está aprove-chando para trazar muy numerosas y prometedorasvías para extenderlas (métodos de núcleos: «KernelMethods»).

● También sobre todo en el ámbito de las redes neuro-nales (aunque no tan sólo en él) se desarrolla acele-radamente la tendencia a utilizar conjuntos, persi-guiendo mejorar prestaciones en problemas de grancomplejidad mediante el recurso a máquinas diferen-tes que pretenden resolver todo el problema (comités),o a máquinas análogas (o eventualmente distintas)que se concentran en diversos aspectos del problema(modulares) o que se ayudan para resolver conjunta-mente el problema («boosting»). Debe resaltarse quede este modo se continúa en la línea «metafórica» ini-cial de las redes neuronales: el remedo de un sistema

97

Page 95: ISBN 84-95336-48-0 FUNDACIÓN COTEC PARA LA …informecotec.es/media/N21_Mineria_Datos.pdf · empresarial que tiene como misión contribuir al desarrollo del país mediante el

nervioso, en el que, ciertamente, hay subsistemas co-operativos y especializados. Los conjuntos de conjun-tos y sus planteamientos de diseño constituyen una lí-nea de investigación particularmente prometedora; ala vez que todo este entramado apunta mejores posi-bilidades de interpretar la actuación de las redes neu-ronales.

● Finalmente, ha de decirse que no son desdeñables losesfuerzos que se están dedicando a la concepción desistemas híbridos (conjuntos de máquinas de diferentestipos, buscando el aprovechamiento de sus fortalezas) ymixtos (en los que las máquinas se destinan a mejorardiseños semianalíticos).

TIPOS DE HERRAMIENTAS

Para completar este apéndice dedicaremos unas líneas adiscutir comparativamente los tres tipos básicos de herra-mientas que incorporan tecnologías de las citadas:

● Comerciales específicas (véase una lista seleccionadaen el apéndice correspondiente).

● Comerciales generales: como puede ser el NN Toolboxde Matlab® (Mathworks) para las redes neuronales.

● Diseños «ad hoc».

si bien sus ventajas e inconvenientes están claros:

● Las herramientas comerciales específicas son de uso re-lativamente fácil e incorporan elementos para llevar acabo todo el proceso de minería; a cambio, son rígidasy raramente permiten obtener muy buenas prestaciones,al no incluir avances recientes.

● Los diseños «ad hoc» se encuentran justamente en el ex-tremo contrario.

● Y un lugar intermedio es el que ocupan las herramien-tas comerciales generales; raramente se hace un razo-

98

Page 96: ISBN 84-95336-48-0 FUNDACIÓN COTEC PARA LA …informecotec.es/media/N21_Mineria_Datos.pdf · empresarial que tiene como misión contribuir al desarrollo del país mediante el

nable uso de las mismas a la vista de ello; de modoque conviene recordar que:

● Las herramientas comerciales generales resultan apro-piadas para llevar a cabo primeros ensayos, normal-mente exploratorios, sobre un problema, ya que permi-ten una cómoda y rápida apreciación de sus caracte-rísticas, y pueden orientar en lo relativo a eleccionesbásicas (pretratamiento, tipo de máquina, etc.).

● En casos de datos masivos, conviene hacer uso de unaherramienta comercial específica, por razones de com-pletitud, comodidad, etc.; pero, si se desea elevar lasprestaciones, no debe descartarse la inserción de mó-dulos diseñados «ad hoc» para aquellas funciones enque resulte indicado.

● En el caso de volúmenes moderados de datos, cabetambién la integración de módulos comerciales genera-les y, en su caso, «ad hoc».

99

Page 97: ISBN 84-95336-48-0 FUNDACIÓN COTEC PARA LA …informecotec.es/media/N21_Mineria_Datos.pdf · empresarial que tiene como misión contribuir al desarrollo del país mediante el

Presentamos aquí un caso imaginario de un supermercadoque vende una serie de productos y desea conocer mejora sus clientes para poder tomar así acciones de márquetindirigido (selección de usuarios a los que enviar ofertas pro-mocionales de nuevos productos). Todos los datos y situa-ciones presentados en este apéndice son ficticios, cuyo úni-co fin es el de ilustrar un posible proceso de minería dedatos para este escenario. El proceso de minería de datoslo simplificamos en los siguientes puntos:

● Uso de conocimiento experto sobre el negocio para de-terminar direcciones iniciales a seguir: qué preguntahay que responder y qué dirección inicial se debe to-mar.

● Identificación de datos iniciales y definición de su cap-tura.

● Aplicación de alguna técnica de minería de datos quefacilite el análisis de los datos.

● Interpretación experta y toma de nuevas decisiones an-tes de iniciar de nuevo el proceso.

En nuestro caso la pregunta está clara: ¿qué grupos de usua-rios puedo identificar y caracterizar a fin de enviarles de for-ma selectiva ofertas promocionales de nuevos productos?Para ello, en primer lugar, utilizando conocimiento experto se

101

APÉNDICE IIEJEMPLO ILUSTRATIVODEL PROCESODE LA MINERÍADE DATOS

Page 98: ISBN 84-95336-48-0 FUNDACIÓN COTEC PARA LA …informecotec.es/media/N21_Mineria_Datos.pdf · empresarial que tiene como misión contribuir al desarrollo del país mediante el

decide capturar datos de 12 usuarios midiendo una única va-riable: el número de cervezas adquiridas en la última sema-na. El resultado de dicha medida se resume en la tabla AII.1:

De la simple observación de la misma se puede deducirque existen dos grupos de usuarios claramente diferencia-dos: los que han comprado cerveza y los que no; peroesta información no resulta suficiente ni relevante paraidentificar o caracterizar dichos grupos, por lo cual se re-curre a una toma de datos complementaria, completandola información anterior con la medida de una nueva 11 va-

102

Usuario N.º de cervezas

1 11

2 0

3 0

4 9

5 14

6 11

7 0

8 13

9 10

10 10

11 13

12 0

Tabla AII.1Medidas tomadas de los 12 usuarios indicando el número de cervezas adquiri-das en la última semana.

11 El proceso de identificación de nuevas variables relevantes en un pro-blema dado es una tarea complicada y, aunque aquí se presenta como re-suelta, es muchas veces el propio proceso de minería de datos es el que tie-ne que responder a dicha pregunta.

Page 99: ISBN 84-95336-48-0 FUNDACIÓN COTEC PARA LA …informecotec.es/media/N21_Mineria_Datos.pdf · empresarial que tiene como misión contribuir al desarrollo del país mediante el

riable, en este caso, el número de pañales adquirido porcada usuario. Los resultados son los indicados en la si-guiente tabla:

En este caso ya no es tan sencillo o inmediato obteneruna interpretación, ya que la manipulación directa de nú-meros no es tarea natural para el ser humano. Se recurrepor ello a una técnica de visualización, en la que se re-presenta a cada usuario mediante un círculo en una grá-fica bidimensional (N.º de cervezas en el eje X, N.º depañales en el eje Y), tal y como se puede observar en lafigura AII.1.

103

Usuario N.º de cervezas N.º de pañales

1 11 8

2 0 10

3 0 14

4 9 12

5 14 0

6 11 0

7 0 12

8 13 0

9 10 0

10 10 9

11 13 11

12 0 13

Tabla AII.2Medidas tomadas de los 12 usuarios indicando el número de cervezas y pa-ñales adquiridos en la última semana.

Page 100: ISBN 84-95336-48-0 FUNDACIÓN COTEC PARA LA …informecotec.es/media/N21_Mineria_Datos.pdf · empresarial que tiene como misión contribuir al desarrollo del país mediante el

Con esta nueva representación es posible identificar clara-mente tres grupos de usuarios, tal y como se detalla en lafigura AII.2.

104

Figura AII.1Visualización de los datos en función de las dos variables elegidas: Nº de cer-vezas y N.º de pañales, cada círculo representa las medidas de un usuario conrespecto al número de unidades compradas.

14

12

10

8

6

4

2

00 2 4 6 8 10 12 14

Usuario 1

Usuario 2

Usuario 7

Usuario 12Usuario 3

Usuario 4

Usuario 11

Usuario 10

Usuario 9

N.º de cervezas

N.º

de p

añal

es

Usuario 6Usuario 5

Usuario 8

Page 101: ISBN 84-95336-48-0 FUNDACIÓN COTEC PARA LA …informecotec.es/media/N21_Mineria_Datos.pdf · empresarial que tiene como misión contribuir al desarrollo del país mediante el

Podemos proceder ahora a la interpretación de los tresgrupos identificados:

• Grupo A: Denominaremos a este grupo como «ma-dres», pues su perfil, atendiendo a las variables selec-cionadas, se centra en la compra de pañales.

• Grupo B: Se adquieren simultáneamente cervezas y pa-ñales, denominaremos a este grupo «padres».

• Grupo C: La compra se centra en cervezas, denomina-remos a estos usuarios «solteros».

105

Figura AII.2Visualización de los datos en función de las dos variables elegidas: N.º de cer-vezas y N.º de pañales, cada círculo representa las medidas de un usuario conrespecto al número de unidades compradas.

14

12

10

8

6

4

2

00 2 4 6 8 10 12 14

N.º de cervezas

N.º

de p

añal

esGRUPO A

GRUPO B

GRUPO C

Page 102: ISBN 84-95336-48-0 FUNDACIÓN COTEC PARA LA …informecotec.es/media/N21_Mineria_Datos.pdf · empresarial que tiene como misión contribuir al desarrollo del país mediante el

Atendiendo a esta interpretación de los resultados, es po-sible planificar una campaña de márquetin dirigido, me-diante el envío de muestras de productos a los usuarios se-leccionados. Así, se decide promocionar tres nuevos pro-ductos:

• Una crema hidratante para bebés: se envía una muestradel producto a los usuarios del Grupo A.

• Una nueva revista de motor: se envía una muestra delproducto a los usuarios del Grupo B.

• Una promoción de pizzas congeladas: se envía unamuestra del producto a los usuarios del Grupo C.

Es importante realizar de modo selectivo estos envíos, puessuponen un coste y es siempre interesante maximizar losretornos, esto es, pretender y lograr que el mayor porcen-taje posible de usuarios que recibe una muestra, finalmen-te adquiera el producto de forma sistemática. A fin de eva-luar la efectividad del análisis de datos llevado a cabo, serealiza una prueba piloto en la que se eligen, además delos tres grupos indicados, otros tres grupos de control, cu-yos usuarios son elegidos al azar, a los que también se lesenvían las muestras. Se calcula el retorno (porcentaje deusuarios de cada grupo que efectivamente ha compradocon posterioridad el producto). Los resultados se han resu-mido como sigue:

106

Grupo Grupo aleatorio seleccionado de control

Crema 60% 12%

Revista 50% 10%

Pizza 70% 20%

Tabla AII.3Porcentaje de retorno (éxito en la venta del producto) para cada una de los pro-ductos a en promoción y cada uno de los grupos de usuarios.

Page 103: ISBN 84-95336-48-0 FUNDACIÓN COTEC PARA LA …informecotec.es/media/N21_Mineria_Datos.pdf · empresarial que tiene como misión contribuir al desarrollo del país mediante el

Como se puede observar, el porcentaje de éxito es muchomayor dentro de los grupos de usuarios identificados a tra-vés del proceso de minería, con lo cual se puede concluirque el análisis de datos llevado a cabo ha sido efectivo yha repercutido de forma positiva en la economía de la em-presa. En casos más generales, pueden ser miles las variables uti-lizables y cientos de miles los datos de usuarios que sepueden procesar, lo que hace muchas veces inviables losprocesos de visualización directa, requiriéndose su sustitu-ción por técnicas automáticas de agrupamiento, selecciónde variables, decisión máquina u otras muchas de las men-cionadas en este documento. Hemos visto mediante este ejemplo como, aun con méto-dos simples, ya se pueden iniciar procesos de minería:partiendo de conocimiento experto inicial del problemaque hay que resolver, definiendo los primeros datos que sehan de procesar y realizando operaciones relativamentesencillas, cerrándose un primer círculo de proceso me-diante la interpretación de resultados. Una vez concluidoun primer análisis, se pueden incorporar los resultados alpropio proceso de minería, decidiendo qué nuevas varia-bles incorporar, qué nuevas herramientas utilizar, qué nue-vas preguntas formular, etc. Por ello, es importante resaltarque la implantación de soluciones de minería de datos esalgo que está al alcance de todo el mundo, no siendo ex-clusiva su aplicación en grandes corporaciones medianteel uso de sofisticadas herramientas, pues en general es po-sible su implantación gradual, comenzando por pequeñosretos que se resuelven mediante herramientas estándar (Ex-cel, Matlab, visualizadores de datos, etc.), para ir progre-sivamente ampliando las exigencias, lo que suele llevaraparejado la necesidad de nuevas herramientas más com-pletas o específicas.

107

Page 104: ISBN 84-95336-48-0 FUNDACIÓN COTEC PARA LA …informecotec.es/media/N21_Mineria_Datos.pdf · empresarial que tiene como misión contribuir al desarrollo del país mediante el

109

APÉNDICE IIISOLUCIÓN ALTESTPERCEPTUAL DELA FIGURA 1

Figura AIII.1Recorriendo el tablero según la espiral indicada se obtiene la secuencia 1 (cír-culo), 2 (cuadrados), 3 (triángulos), 4 (exágonos), 5 (cuadrados), 6 (círculos), 7(triángulos) y 8 (exágonos).

Page 105: ISBN 84-95336-48-0 FUNDACIÓN COTEC PARA LA …informecotec.es/media/N21_Mineria_Datos.pdf · empresarial que tiene como misión contribuir al desarrollo del país mediante el

Nos limitamos a algunos acrónimos (versión inglesa) que,además de aparecer en este documento, son frecuentes enla literatura sobre Minería de Datos y sus aledaños.

CRM («Customer Relationship Management»): Ges-tión de la relación con el cliente (individualiza-da, considerando sus necesidades y preferen-cias).

DM («Data Mining»): Minería de datos (proceso deextracción de información relevante de una basede datos).

DW («Data Warehouse»): Almacén de datos (en unagran base preparada para su fácil gestión a losefectos de acceder y procesar los datos).

ES («Expert System»): Sistema experto (conjunto dereglas para la resolución de un problema).

KD («Knowledge Discovery»): Descubrimiento deconocimiento (en fuentes en donde haya informa-ción o datos relevantes).

KM(1) («Knowledge Management»): Gestión del cono-cimiento (típicamente en una organización, de lainformación interna y externa y de la derivable desus recursos humanos).

KM(2) («Kernel Methods»): Métodos de núcleos (formaparticularmente potente de decisores y estimado-res, emparentada con las redes neuronales y tam-bién con los métodos estadísticos clásicos).

MLP («Multilayer Perceptron»): Perceptrón multicapa(forma particular de red neuronal).

NN («Neural Networks»): Redes neuronales (arquitec-turas algorítmicas paralelo con parámetros entre-nables para resolver problemas de decisión, esti-mación, etc.).

111

GLOSARIO

Page 106: ISBN 84-95336-48-0 FUNDACIÓN COTEC PARA LA …informecotec.es/media/N21_Mineria_Datos.pdf · empresarial que tiene como misión contribuir al desarrollo del país mediante el

OLAP («On Line Analytical Processing»): Procesado ana-lítico «On Line» (software para manejar estadísti-camente datos en tiempo real).

SQL («Standard Query Language»): Lenguaje estándarde preguntas (que se formulan sobre el contenidode una base de datos).

SVM («Support Vector Machines»): Máquinas de vecto-res soporte (arquitecturas algorítmicas construidasen función de las muestras más relevantes pararesolver un problema, incluyendo arquitecturas detipo neuronal).

TM («Text Mining»): Minería de textos (proceso deextracción de información relevante a partir detextos mediante algoritmos computacionales).

WM («Web Mining»): Minería en la web (minería dedatos aplicada sobre la «World Wide Web»).

112

Page 107: ISBN 84-95336-48-0 FUNDACIÓN COTEC PARA LA …informecotec.es/media/N21_Mineria_Datos.pdf · empresarial que tiene como misión contribuir al desarrollo del país mediante el

DOCUMENTOS COTEC sobre OPORTUNIDADES TECNOLÓGICAS

Documentos editados

N.º 1: Sensores.

N.º 2: Servicios de información técnica.

N.º 3: Simulación.

N.º 4: Propiedad industrial.

N.º 5: Soluciones microelectrónicas (ASICs) para todos lossectores industriales.

N.º 6: Tuberías de polietileno para conducción de aguapotable.

N.º 7: Actividades turísticas.

N.º 8: Las PYMES y las telecomunicaciones.

N.º 9: Química verde.

N.º 10: Biotecnología.

N.º 11: Informática en la Pequeña y Mediana Empresa.

N.º 12: La telemática en el sector de transporte.

N.º 13: Redes neuronales.

N.º 14: Vigilancia tecnológica.

N.º 15: Materiales innovadores. Superconductores y materialesde recubrimiento.

N.º 16: Productos alimentarios intermedios (PAI).

N.º 17: Aspectos jurídicos de la gestión de la innovación.

N.º 18: Comercio y negocios en la sociedad de la información.

N.º 19: Materiales magnéticos.

N.º 20: Los incentivos fiscales a la innovación.

N.º 21: Minería de datos.

113

Page 108: ISBN 84-95336-48-0 FUNDACIÓN COTEC PARA LA …informecotec.es/media/N21_Mineria_Datos.pdf · empresarial que tiene como misión contribuir al desarrollo del país mediante el

DOCUMENTOS COTEC sobre NECESIDADES TECNOLÓGICAS

Documentos editados:

N.º 1: Sector lácteo.

N.º 2: Rocas ornamentales.

N.º 3: Materiales de automoción.

N.º 4: Subsector agroindustrial de origen vegetal.

N.º 5: Industria frigorífica y medio ambiente.

N.º 6: Nuevos productos cárnicos con bajo contenido engrasa.

N.º 7: Productos pesqueros reestructurados.

N.º 8: Sector de la construcción.

N.º 9: Sector de la rehabilitación.

N.º 10: Aguas residuales.

N.º 11: Acuicultura.

N.º 12: Reducción de emisiones atmosféricas industriales.

N.º 13: El mantenimiento como gestión de valor para laempresa.

N.º 14: Productos lácteos.

N.º 15: Conservas vegetales.

114