15
 INGENIERÍA DE NEGOCIOS PROFESOR: RAINER VELILLA REVOLLO [email protected] Programa de Ingeniería de Sistemas

13_INTRODUCCIÓN A LA MINERÍA DE DATOS

Embed Size (px)

Citation preview

INGENIERA DE NEGOCIOSPROFESOR: RAINER VELILLA REVOLLO

[email protected] de Ingeniera de Sistemas

TEMARIO

Introduccin a la Minera de Datos (DM) - Motivacin - Problemas tipo y aplicaciones - Relacin de DM con otras disciplinas

OBJETIVOS

Reconocer la problemtica del anlisis de grandes volmenes de datos y de los beneficios de su uso sistemtico para la obtencin de modelos y patrones predictivos o descriptivos.

MOTIVACINNuevas Necesidades del Anlisis de Grandes Volmenes de Datos El aumento del volumen y variedad de informacin que se encuentra informatizada en bases de datos digitales ha crecido espectacularmente en la ltima dcada. Gran parte de esta informacin es histrica, es decir, representa transacciones o situaciones que se han producido. Aparte de su funcin de memoria de la organizacin, la informacin histrica es til para predecir la informacin futura.4

MOTIVACIN La mayora de decisiones de empresas, organizaciones e instituciones se basan tambin en informacin de experiencias pasadas extradas de fuentes muy diversas.

las decisiones colectivas suelen tener consecuencias mucho ms graves, especialmente econmicas, y, recientemente, se deben basar en volmenes de datos que desbordan la capacidad humana.

5

El rea de la extraccin (semi-)automtica de conocimiento de bases de datos ha adquirido recientemente una importancia cientfica y econmica inusual

MOTIVACIN Tamao de datos poco habitual para algoritmos clsicos: nmero de registros (ejemplos) muy largo (108-1012 bytes). datos altamente dimensionales (n de columnas/atributos): 102-104.6

El usuario final no es un experto en aprendizaje automtico ni en estadstica. El usuario no puede perder ms tiempo analizando los datos: industria: ventajas competitivas, decisiones ms efectivas. ciencia: datos nunca analizados, bancos no cruzados, etc. personal: information overload... Los sistemas clsicos de estadstica son difciles de usar y no escalan al nmero de datos tpicos en bases de datos.

RELACIN DE DM CON OTRAS DISCIPLINASAparece... Descubrimiento de Conocimiento a partir de Bases de Datos (KDD, del ingls Knowledge Discovery from Databases).7

proceso no trivial de identificar patrones vlidos, novedosos, potencialmente tiles y en ltima instancia comprensibles a partir de los datos. Fayyad et al. 1996 Diferencia clara con mtodos estadsticos: la estadstica se utiliza para validar o parametrizar un modelo sugerido y preexistente, no para generarlo. Diferencia sutil Anlisis Inteligente de Datos (IDA, del ingls Intelligent Data Analysis) que corresponda con el uso de tcnicas de inteligencia artificial en el anlisis de los datos.

RELACIN DE DM CON OTRAS DISCIPLINAS KDD nace como interfaz y se nutre de diferentes disciplinas: estadstica. sistemas de informacin / bases de datos.8

aprendizaje automtico / IA. visualizacin de datos. computacin paralela / distribuida. interfaces de lenguaje natural a bases de datos.

RELACIN DE DM CON OTRAS DISCIPLINAS La minera o prospeccin de datos (DM) no es ms que una fase del KDD: Fase que integra los mtodos de aprendizaje y estadsticos para obtener hiptesis de patrones y modelos. Al ser la fase de generacin de hiptesis, vulgarmente se asimila KDD con DM.9

Adems, las connotaciones de aventura y de dinero fcil del trmino minera de datos han hecho que ste se use como identificador del rea.

RELACIN DE DM CON OTRAS DISCIPLINASLa minera de datos no es una extensin de los sistemas de informes inteligentes o sistemas OLAP (On-Line Analytical Processing). La minera de datos aspira a ms Otras herramientas, p.ej. consultas sofisticadas o anlisis estadstico, pueden responder a preguntas como:10

Han subido las ventas del producto X en junio?

Las ventas del producto X bajan cuando promocionamos el producto Y?Pero slo con tcnicas de minera de datos podremos responder a preguntas del estilo:

Qu factores influyen en las ventas del producto X?Cul ser el producto ms vendido si abrimos una delegacin en Portugal?

RELACIN DE DM CON OTRAS DISCIPLINAS Visin con las herramientas tradicionales:

El analista empieza con una pregunta, una suposicin o simplemente una intuicin y explora los datos y construye un modelo. El analista propone el modelo. Visin con la minera de datos:

11

Aunque el analista no pierde la posibilidad de proponer modelos, el sistema encuentra y sugiere modelos.Ventajas:

Generar un modelo requiere menos esfuerzo manual y permite evaluar cantidades ingentes de datos. Se pueden evaluar muchos modelos generados automticamente, y esto aumenta la probabilidad de encontrar un buen modelo. El analista necesita menos formacin sobre construccin de modelos y menos experiencia.

REAS DE APLICACINMs importante reas de Aplicacin: industrialmente Toma de Decisiones (banca-finanzas-seguros, mrketing, polticas sanitarias/demogrficas, ...) Procesos Industriales (componentes qumicos, compuestos, mezclas, esmaltes, procesos, etc.) Investigacin Cientfica (medicina, astronoma, meteorologa, psicologa, ...). Aqu la eficiencia no es tan importante. Soporte al Diseo de Bases de Datos. Reverse Engineering (dados una base de datos, desnormalizarla para que luego el sistema la normalice). Mejora de Calidad de Datos. Mejora de Consultas (si se descubren dependencias funcionales nuevas u otras condiciones evitables).12

REAS DE APLICACIN. PROBLEMAS TIPO.KDD para toma de decisiones (Dilly 96)

Comercio/Marketing:

Banca:

Seguros y Salud Privada:

Transportes:

- Identificar patrones de compra de los clientes. - Buscar asociaciones entre clientes y caractersticas demogrficas. - Predecir respuesta a campaas de mailing. - Anlisis de cestas de la compra. - Detectar patrones de uso fraudulento de tarjetas de crdito. - Identificar clientes leales. - Predecir clientes con probabilidad de cambiar su afiliacin. - Determinar gasto en tarjeta de crdito por grupos. - Encontrar correlaciones entre indicadores financieros. - Identificar reglas de mercado de valores a partir de histricos. - Anlisis de procedimientos mdicos solicitados conjuntamente. - Predecir qu clientes compran nuevas plizas. - Identificar patrones de comportamiento para clientes con riesgo. - Identificar comportamiento fraudulento. - Determinar la planificacin de la distribucin entre tiendas. - Analizar patrones de carga.

13

REAS DE APLICACIN. PROBLEMAS TIPO.KDD para toma de decisin

Medicina: - Asociacin de sntomas y clasificacin diferencial de patologas.

- Identificacin de terapias mdicas satisfactorias para diferentes enfermedades.

- Estudio de factores (genticos, precedentes, hbitos, alimenticios, etc.) de riesgo/salud en distintas patologas. - Segmentacin de pacientes para una atencin ms inteligente segn su grupo. - Predicciones temporales de los centros asistenciales para el mejor uso de recursos, consultas, salas y habitaciones. - Estudios epidemiolgicos, anlisis de rendimientos de campaas de informacin, prevencin, sustitucin de frmacos, etc.

14

REAS DE APLICACIN. PROBLEMAS TIPO.KDD para Procesos Industriales15

-

Extraccin de modelos sobre comportamiento de compuestos. Deteccin de piezas con trabas. Prediccin de fallos Modelos de calidad. Estimacin de composiciones ptimas en mezclas. Extraccin de modelos de coste. Extraccin de modelos de produccin. Simulacin costes/beneficios segn niveles de calidad