44
Breve paseo por la Minería de Datos (DM) • Introducción • Espectro de Información • Dato, Información, Conocimiento • Relación de Datos, Información y Conocimiento y Sociedad • Sabiduría, Conocimiento, Aprendizaje • Base de Datos • Sistema de Gestión de Base de Datos • Niveles en el Uso de los Datos • Conocimiento en las Base de Datos • Verificación versus Descubrimiento • Descubrimiento de Conocimiento en Base de Datos (KDD) • Minería de Datos (DM) • Minería de Datos (DM) Tareas • Minería de Datos (DM) Enfoque • Minería de Datos (DM) Mapa Conceptual • Minería de Datos (DM) Técnicas • Procesamiento Analítico en Línea (OLAP) versus Minería de Datos (DM) • Aplicaciones de la Minería de Datos (DM) • Relación de la Minería de Datos (DM) con otras disciplinas • Relación de la Minería de Datos (DM) con otras disciplinas “Estrella Famosa” • Minería de Datos (DM) Propósitos Empresariales • Minería de Datos (DM) Ejemplos Elaborado por: Jean Sánchez

Brevepaseoporla mineríadedatos

Embed Size (px)

DESCRIPTION

Breve paseo por la Minería de Datos

Citation preview

Page 1: Brevepaseoporla mineríadedatos

Breve paseo por la Minería de Datos (DM)• Introducción

• Espectro de Información

• Dato, Información, Conocimiento

• Relación de Datos, Información y Conocimiento y Sociedad

• Sabiduría, Conocimiento, Aprendizaje

• Base de Datos

• Sistema de Gestión de Base de Datos

• Niveles en el Uso de los Datos

• Conocimiento en las Base de Datos

• Verificación versus Descubrimiento

• Descubrimiento de Conocimiento en Base de Datos (KDD)

• Minería de Datos (DM)

• Minería de Datos (DM) Tareas

• Minería de Datos (DM) Enfoque

• Minería de Datos (DM) Mapa Conceptual

• Minería de Datos (DM) Técnicas

• Procesamiento Analítico en Línea (OLAP) versus Minería de Datos (DM)

• Aplicaciones de la Minería de Datos (DM)

• Relación de la Minería de Datos (DM) con otras disciplinas

• Relación de la Minería de Datos (DM) con otras disciplinas “Estrella Famosa”

• Minería de Datos (DM) Propósitos Empresariales

• Minería de Datos (DM) Ejemplos Elaborado por: Jean Sánchez

Page 2: Brevepaseoporla mineríadedatos

Introducción

Las computadoras son un millón de veces más poderosas que hace veinte años.

Page 3: Brevepaseoporla mineríadedatos

Introducción

¡En veinte años las computadoras van a ser un millón de veces más poderosas que las de hoy!

Page 4: Brevepaseoporla mineríadedatos

• Sobrecarga informativa - ansiedadDemasiadas “cosas” para mantenerse al día.

• Aguja en un pajarParece que nunca encontramos lo que queremos,

cómo lo queremos y en la forma adecuada.• Calidad de la informaciónHay que separar el grano de la paja.

Introducción

Page 5: Brevepaseoporla mineríadedatos

Aumento en la cantidad de información

“Se ha producido más información en los últimos 30 años que en los 5.000 previos.”

(Fuente: Large, P., The Micro Revolution, Revisited, 1984)

Introducción

Page 6: Brevepaseoporla mineríadedatos

Introducción

Descripción Tamaño en Bytes Modo de Almacenaje

Bien pequeño 102 Hoja de papel

Pequeño 104 Varias hojas

Mediano 106 (megabyte) Diskette

Grande 109(gigabite) Disco Duro

Masivo 1012(Terabyte) Cinta magnetica

Supermasivo 1015(Petabyte) Archivos de datos distribuidos

Tamaño de conjuntos de datos

Page 7: Brevepaseoporla mineríadedatos

Sobrecarga de información

“En la actualidad, en un número del New York Times hay más información impresa, que la cantidad a la que tuvo acceso una persona del Siglo XVII durante toda su vida”.

(Fuente: Dawis Lewis, Introduction to Dying for Information, www.reuters.com/rbb/research/dfiforframe.htm)

Introducción

Page 8: Brevepaseoporla mineríadedatos

Sobrecarga de Información.Ejemplo

“¿Deben vacunarse los niños?¿Son seguras?”

• Existen 454.150 sitios posibles en el buscador Yahoo.• Mirarlos por solo 5 minutos cada uno, tomaría

37.000 horas.• Se asume que, al menos, 100-200 tengan la

información buscada. Usarlos tomaría unas 50 - 100 horas adicionales.

• Tiempo potencial total que tomaría: 1545 días, ¡¡¡¡¡más de 4 años!!!!!

Introducción

Page 9: Brevepaseoporla mineríadedatos

Sobrecarga de información.Ejemplo

“¿Qué es la información?”

• Existen 171.769.416 sitios posibles en el buscador Google.

• Mirarlos por solo 1 minuto cada uno, tomaría 2.862.823 horas.

• Tiempo potencial total que tomaría: 119.284 días, ¡¡¡¡¡más de 326 años!!!!!

Esto es imposible, y por lo tanto, existe una clara necesidad de disponer de tecnologías que efectúen procesos de búsqueda y aún más, de tecnologías que nos ayuden a comprender su contenido.

Introducción

Page 10: Brevepaseoporla mineríadedatos

IntroducciónLos crecientes avances tecnológicos y en especial la revolución digital, ha posibilitado que la captura de los datos sea fácil, además, el almacenamiento de los mismos posee un costo casi nulo. Con el desarrollo del software y el hardware, grandes cantidades de datos son recogidas y almacenados en bases de datos. Por tanto, el análisis de estas enormes cantidades de datos a través de las herramientas tradicionales de gestión de datos o con técnicas estadísticas, no son adecuadas.

Todo esto parece excelente pero no conocemos el significado de: datos, información y conocimiento.

Page 11: Brevepaseoporla mineríadedatos

Espectro de InformaciónEsta formado por: datos, información, conocimiento y sabiduría.Los datos son información en bruto, no es más que una colección de hechos aislados que deben procesarse para poseer valor, por tanto no existe asociatividad.La información se deriva de los datos procesados lo que implica la asociatividad de los datos dentro de un contexto.El conocimiento proviene de procesar la información, por tanto, asocia la información obtenida en un contexto con otra información producida en un contexto diferente.La sabiduría se origina de procesar el conocimiento, la asociatividad se realiza al mayor nivel donde se asocia el conocimiento obtenido en un contexto con otro conocimiento producido en un contexto diferente.La mayoría de los programas, aplicaciones, sistemas de información, WebApps, es decir, el software existente se ha construido para procesar datos o información. Sólo, la Inteligencia Artificial se ha dado a la tarea del tratamiento y uso del conocimiento. Aún no poseemos ni el software ni hardware para el tratamiento o uso de la sabiduría.

Datos Información Conocimiento SabiduríaSe comienzan aclarar las cosas. Prosigue

Page 12: Brevepaseoporla mineríadedatos

Datos

Información

Conocimiento

Sabiduría

Es una actividad en la actualidad propia de los humanos. Es una apreciación del por qué.Permite producir conocimiento.

Es información útil, contextual, tácita. Es la aplicación de los datos y la información, responde a cómo. Permite aprender.

Es la data con un significado por vía de una relación. El significado puede o no ser útil. Responde a quién, qué, donde, cuándo.

Es la data cruda. Puede o no existir, pero no posee significado .

Espectro de Información

Page 13: Brevepaseoporla mineríadedatos

Antes que nada la sabiduría no es mencionada porque no poseemos los recursos ni herramientas computacionales para tratarla o usarla; en la actualidad debemos comprender en qué se diferencian el conocimiento de los datos y la información. En una conversación informal, los tres términos suelen utilizarse indistintamente y esto puede llevar a una interpretación libre del concepto de conocimiento. Quizás la forma más sencilla de diferenciar los términos sea pensar que los datos están localizados en el mundo y el conocimiento está localizado en agentes de cualquier tipo, mientras que la información adopta un papel mediador entre ambos.

Un agente no equivale a un ser humano. Podría tratarse de un animal, una máquina o una organización constituida por otros agentes a su vez.  

Dato, Información, Conocimiento

Page 14: Brevepaseoporla mineríadedatos

Dato:

Un dato es un conjunto discreto, de factores objetivos sobre un hecho real. El concepto de dato es definido como un registro de transacciones. Un dato no dice nada sobre el porqué de las cosas, y por sí mismo tiene poca o ninguna relevancia o propósito.

Los datos describen únicamente una parte de lo que pasa en la realidad y no proporcionan juicios de valor o interpretaciones, y por lo tanto no son orientativos para la acción.

La toma de decisiones se basará en datos, pero estos nunca dirán lo que hacer. Los datos no dicen nada acerca de lo que es importante o no.

A pesar de todo, los datos son importantes para las organizaciones, ya que son la base para la creación de información.

Dato, Información, Conocimiento

Page 15: Brevepaseoporla mineríadedatos

Dato, Información, ConocimientoInformación:

Los investigadores que han estudiado el concepto de información, lo describen

como un mensaje. Como cualquier mensaje, tiene un emisor y un receptor. La

información es capaz de cambiar la forma en que el receptor percibe algo, y de

impactar sobre sus juicios de valor y comportamientos. La palabra “informar”

significa originalmente “dar forma a” y la información es capaz de formar a la

persona que la consigue, proporcionando ciertas diferencias en su interior o

exterior. Por lo tanto, estrictamente hablando, es el receptor, y no el emisor, el que

decide si el mensaje que ha recibido es realmente información, es decir, si

realmente le informa. Un informe lleno de tablas inconexas, puede ser considerado

información por el que lo escribe, pero a su vez puede ser juzgado como “ruido”

por el que lo recibe.

A diferencia de los datos, la información tiene significado (relevancia y propósito).

No sólo puede formar potencialmente al que la recibe, sino que esta organizada

para algún propósito. Los datos se convierten en información cuando su creador

les añade significado.

Page 16: Brevepaseoporla mineríadedatos

Dato, Información, ConocimientoConocimiento:

Todos tenemos la sensación intuitiva que el conocimiento es algo más amplio,

profundo y rico que los datos y la información.

Para Davenport y Prusak (1999) el conocimiento es una mezcla de experiencia,

valores, información y “saber hacer” que sirve como marco para la

incorporación de nuevas experiencias e información, y es útil para la acción. Se

origina y aplica en la mente de los conocedores. En las organizaciones con

frecuencia no sólo se encuentra dentro de documentos o almacenes de datos,

sino que también esta en rutinas organizativas, procesos, prácticas, y normas.

Lo que inmediatamente deja claro la definición es que ese conocimiento no es

simple. Es una mezcla de varios elementos; es un flujo al mismo tiempo que

tiene una estructura formalizada; es intuitivo y difícil de captar en palabras o

de entender plenamente de forma lógica. El conocimiento existe dentro de las

personas, como parte de la complejidad humana y de nuestra

impredecibilidad.

Page 17: Brevepaseoporla mineríadedatos

Dato, Información, Conocimiento

Existen múltiples definiciones de

conocimiento, desde las clásicas y

fundamentales como una creencia

cierta y justificada, …

… a otras más recientes y pragmáticas

como una mezcla de experiencia,

valores, información y “saber hacer”

que sirve como marco para la

incorporación de nuevas experiencias

e información, y es útil para la acción.

Page 18: Brevepaseoporla mineríadedatos

“Conocimiento significa entonces apropiarnos de las propiedades y relaciones de las cosas, entender lo que son y lo que no son. Tener discernimiento, es decir juicio por cuyo medio se percibe y establece la diferencia que existe entre varias cosas”.Se concluye fácilmente que el conocimiento se divide en dos partes:a) El objeto en sí, con sus propiedades y relaciones, que queremos

conocer.b) El sujeto que trata de apoderarse de ese saber.Además el conocimiento permite:c) El conocimiento permite saber hacer, por tanto, es el marco para

incorporar nuevas experiencias e información, es útil para la acción.d) En las organizaciones el conocimiento no sólo se encuentra en los

documentos o almacenes de datos, sino también en las rutinas organizativas, procesos, prácticas, y normas.

Dato, Información, Conocimiento

Page 19: Brevepaseoporla mineríadedatos

Relación de Datos, Información y Conocimiento y la Sociedad

SOCIEDAD TECNOLÓGICA

Pirámide de la organización de la experiencia (personal,

grupal y social)

SOCIEDAD DELCONOCIMIENTO

SOCIEDAD DE LA INFORMACIÓN

CONOCIMIENTO

INFORMACIÓN

DATOLos miembros de la sociedad son individuos con funciones específicas para que la sociedad prospere

Los miembros de la sociedad son personas con habilidades para manejar y compartir información

Los miembros de la sociedad son personas con capacidades que les permiten tomar conciencia y actuar sobre su contexto

Page 20: Brevepaseoporla mineríadedatos

SABIDURIA - CONOCIMIENTO - APRENDIZAJE

El Conocimiento humano

Comprender el mundo

Tres técnicas básicas

para

utiliza

Diferenciación de la experiencia en objetos

particulares y sus atributos

Distinción entre el todo y sus partes Clasificación

SABIDURIA

APRENDIZAJE

Page 21: Brevepaseoporla mineríadedatos

Es una colección ordenada de datos organizada de tal forma que puede consultarse y actualizarse, de manera eficiente y ordenada.Se usan para registrar y representar el funcionamiento del sistema, a través de los datos relativos a sus diferentes características y componentes .• Tipos de bases de datos

– Analíticas– Dinámicas

• Modelo de bases de datos– Jerárquicas– Red– Relacionales– Orientada a Objetos– Documentales– Distribuidas

Base de Datos

Base de Datos

Page 22: Brevepaseoporla mineríadedatos

Jerárquica

Padre

HijoHijo

Hijo Hijo Hijo

Padre

Red

Padre

Hijo

Hijo

relacionalAplicación

datos

datos

datos

Redes de comunicación

Distribuida

Base de Datos

Page 23: Brevepaseoporla mineríadedatos

SGBD; en inglés, Database Management System: DBMS, es un conjunto de programas que permite a los usuarios crear y mantener una base de datos.

Si bien, no es imprescindible contar con un SGBD, este software de uso general facilita el proceso de definir, construir y manipular bases de datos para diversas aplicaciones.

Debería poseer las siguientes características:

Restricción de los accesos no autorizados.

Control de la redundancia.

Almacenamiento persistente de objetos y estructuras de datos de programas

Inferencias en la base de datos mediante reglas de deducción

Suministro de múltiples interfaces con los usuarios

Representación de vínculos complejos entre los datos

Cumplimiento de las restricciones de integridad

Respaldo y recuperación

Disponibilidad de información actualizada

Economías de escala

Sistema de Gestión de Base de Datos

Page 24: Brevepaseoporla mineríadedatos

• Nivel operacional: Se utilizan sistemas de información que monitorean las actividades y transacciones elementales.

• Nivel de administración : Realiza operaciones repetitivas de captura masiva de datos y servicios básicos de tratamiento de datos, con tareas predefinidas.

• Nivel de conocimientos : Realiza actividades de análisis, de seguimiento, de control y toma de decisiones, realiza consultas sobre información almacenada.

• Nivel estratégico: Realizar las actividades de planificación a largo plazo, tanto del nivel de administración como de los objetivos que la empresa posee. Mira el futuro

Niveles en el Uso de los Datos

Page 25: Brevepaseoporla mineríadedatos

Niveles en el Uso de los Datos

Page 26: Brevepaseoporla mineríadedatos

Plazo Nivel Uso

Corto plazo Operacional y Administrativo

Obtención y control de datos

OLTP

Mediano plazo

De Conocimientos

Decisiones tácticas

OLAP

Largo plazo Estratégico Decisiones estratégicas

OLAP

OLTP (On-Line Transaction Processing - Procesamiento de Transacciones en Línea). Para la capturan y almacenamiento de transacciones.

OLAP (On-Line Analytical Processing – Procesamiento Analítico en Línea). Para el análisis y las navegación en los datos.

Niveles en el Uso de los Datos considerando el Tiempo

Page 27: Brevepaseoporla mineríadedatos

Conocimiento en las Base de DatosSegún su nivel de abstracción: Conocimiento Evidente: Fácilmente recuperable a través de SQL. Conocimiento Multidimensional: Considera los datos con cierta estructura y

relevancia, se usa el OLAP. Conocimiento Oculto: Información evidente desconocida a priori y

potencialmente útil sólo se descubre con Minería de Datos “DM”. Conocimiento Profundo: Información que está almacenada en la Base de

Datos, pero que resulta imposible de recuperar a menos que se disponga de alguna clave que oriente la búsqueda.

Datos Superficiales (se descubren con SQL)Datos Multi-Dimensionales (se descubren con

OLAP) Datos Escondidos(se descubren con DM)

Datos Profundos (se descubren sólo con pistas)

Page 28: Brevepaseoporla mineríadedatos

Verificación versus DescubrimientoVerificación Descubrimiento

Elaborar una hipótesis sobre la existencia de una información de interés.

Identificar un objetivo o problema de negocio.

Convertir la hipótesis en una consulta.

Habilitar un acceso a los datos de interés y acondicionarlos.

Ejecutar la consulta contra un sistema de información.

Seleccionar una técnica de explotación de los datos adecuada para el problema.

Interpretar los resultados. Ejecutar la técnica contra los datos.

Refinar la hipótesis y repetir la ejecución.

Interpretar los resultados.

Page 29: Brevepaseoporla mineríadedatos

Descubrimiento de Conocimiento en Base de Datos (KDD)

Debido a la inmensa cantidad de datos, surge la necesidad de técnicas, prácticas o metodologías para el análisis inteligente de datos, que permitan descubrir un conocimiento útil a partir de los mismos. De allí nace el KDD (Knowledge Discovery in Databases) o “Descubrimiento de Conocimiento en Base de Datos” que puede ser definido como el proceso no trivial de identificar patrones en los datos con las características siguientes: válidos, novedosos, útiles y comprensibles. El KDD es un conjunto de pasos interactivos e iterativos.

Page 30: Brevepaseoporla mineríadedatos

El KDD se compone de las siguientes fases:a. Fase de Integración y Recopilación. b. Fase de Selección, Limpieza y Transformación.c. Fase de Minería de Datos.d. Fase de Evaluación e Interpretación.e. Fase de Difusión y Uso.

Descubrimiento de Conocimiento en Base de Datos (KDD)

Page 31: Brevepaseoporla mineríadedatos

Minería de Datos (DM)La Minería de Datos es un área cuyo objetivo es predecir resultados y/o descubrir relaciones en los datos. La Minería de Datos puede ser descriptivo (descubrir patrones que describen los datos), o predictivo (para pronosticar el comportamiento del modelo basado en los datos disponibles). Por tanto permite:Explorar grandes cantidades de datos (generalmente relacionados a los negocios o mercadeo), Búsqueda de modelos consistentes y/o las relaciones sistemáticas entre las variables,Validar los resultados aplicando los modelos descubiertos a los nuevos subconjuntos de datos.El proceso consiste así en tres fases básicas:•Exploración,•Construcción o definición del modelo, y•Validación/Verificación.

Page 32: Brevepaseoporla mineríadedatos

Minería de Datos (DM) Tareas•Describir•Estimar•Predicción•Clasificación•Agrupamiento•Asociación•Modelado de Dependencias

Page 33: Brevepaseoporla mineríadedatos

Minería de Datos (DM) EnfoqueENFOQUE ASCENDENTE ENFOQUE DESCENDENTE ENFOQUE MIXTO

No hay hipótesis inicial, el procedimiento consiste en examinar los datos para descubrir patrones en ellos. Puede ser:•Supervisada: se tiene la idea de lo que se busca. ¿Qué se suele comprar junto al producto x?.•No Supervisada: no se sabe que se busca. La herramienta de Minería de Datos se le indica buscar algo interesante. Puede ser el acceso a una red y la herramienta puede descubrir a los usuarios que se conectan fuera de su horario de trabajo.

Partiendo de una hipótesis se realizan consultas a los datos para determinar la certeza, si la hipótesis no es cierta se deberá verificar y comenzar el proceso de ser necesario. Por ejemplo: Las personas obesas y que fuman tienen mayor probabilidad de sufrir un infarto.

Es un hibrido entre el enfoque ascendente y descendente, esto con el fin de que la herramienta efectué la búsqueda o encuentre algún patrón interesante y luego testearlo con el enfoque descendente.

Page 34: Brevepaseoporla mineríadedatos

DataPre-procesada

DataTransformada Patrones

Fuentes de datos Pre-procesamientoExploración y

transformaciónReconocimiento de

PatronesEvaluación e Interpretación

DatacrudaDHW

DBMS

Texto

DataObjetivo

Evaluación y Entendimiento

Muestreo y Selección• Muestreo • Selección

Limpieza de Datos• Limpieza de datos• Datos que no existen• Datos no clasificados• Identificación de

extremos• Eliminación de Ruido

Transformación de Datos• Reducción de

Dimensionalidad• Creación de

Características• Normalización de Datos• Variables

Correlacionadas• Discretización

Reportes y VisualizaciónModelado• Descripción• Clasificación• Regresión• Agrupamiento• Asociación• Secuenciación• Detección de

Desviación

Minería de Datos (DM) Mapa Conceptual

Page 35: Brevepaseoporla mineríadedatos

Minería de Datos

PredicciónDescubrimiento de

conocimiento

Regresión ClasificaciónDetección de Desviaciones

ClusteringReglas de Asociación

Visualización

• Una actividad de extracción con el objetivo de descubrir hechos contenidos en las bases de datos o almacenes de datos.

• Los hechos no son conocidos con anterioridad.• Los hechos escondidos, se representan por reglas.• Las reglas se usan para predecir estados del sistema.• Es un trabajo automatizado.• Las técnicas de minería de datos permite diseñar modelos desde el ámbito del

problema para la toma de decisiones automáticas.

Minería de Datos (DM) Técnicas

Page 36: Brevepaseoporla mineríadedatos

Procesamiento Analítico en Línea (OLAP) versus Minería de Datos (DM)

OLAP DM

El OLAP y la Estadística puede usar hipótesis o suposiciones.

EL DM no requiere de suposiciones. En su lugar identifica hechos o conclusiones basados en patrones descubiertos.

Una herramienta OLAP no es una herramienta DM, ya que la búsqueda se origina con el usuario.

Las Redes Neuronales (RN), la Inteligencia Artificial (AI) y los Algoritmos Genéticos, por otra parte, se consideran como verdaderas herramientas de DM, porque interrogan autónomamente a los datos, en búsqueda de patrones.

El procesamiento OLAP y la Estadística proporcionan análisis de-arriba-abajo, dirigido por las búsquedas.

La Minería de Datos proporciona análisis de-abajo-arriba, dirigido por los descubrimientos.

Una herramienta puede informar al vendedor sobre el número total de libros vendidos para una región determinada en un trimestre determinado.

Una herramienta puede informar de los factores que influyen en la venta de los libros.

Page 37: Brevepaseoporla mineríadedatos

Aplicaciones de la Minería de Datos (DM)Ámbitos financieros y de

seguros: índices de producción y costes, datos

de tarjetas de créditos, detección de fraudes,

marketing.

Análisis de textos: internet, documentos multimedia.

Salud: modelos de diagnóstico a partir de

información almacenada en sistemas hospitalarios,

gestión de tratamientos, diseño de campañas de

prevención y vacunación.

Producción: optimización del proceso de fabricación y

del control de calidad.Control de sistemas.

Distribución: análisis de ubicación de los artículos

para la compra en establecimientos

comerciales, gestión de inventarios y planificación

de transportes.

Redes de telecomunicaciones:

patrones de llamadas y gestión de fallos.

Dominios científicos: observaciones astronómicas,

datos genómicos y biológicos.

Administraciones y organismos públicos:

análisis de políticas de empleo, de vivienda,

poblacionales, medioambientales,

seguridad, de educación, transporte y control del

tráfico, etc.

Page 38: Brevepaseoporla mineríadedatos

Relación de la Minería de Datos (DM) con otras disciplinas

Base de Datos

Recuperación de Información

Estadística

Aprendizaje Automático

Toma de Decisiones

Computación Paralela

Visualización de Datos

Page 39: Brevepaseoporla mineríadedatos

Relación de la Minería de Datos (DM) con otras disciplinas “Estrella Famosa”

Page 40: Brevepaseoporla mineríadedatos

Minería de Datos (DM) Propósitos Empresariales

Una investigación de la empresa META Group reveló que las 500 empresas del ranking Fortune utilizaban la Minería de Datos básicamente con tres propósitos: · 64% - para la planificación estratégica, · 49% - para inteligencia competitiva, · 46% - para aumentar su cuota de mercado.

Page 41: Brevepaseoporla mineríadedatos

Minería de Datos (DM) Ejemplos

Ide D-crédito(años)

C-crédito(Bs.F)

Salarios(Bs.F)

CasaPropia

CuentasMorosas

… DevuelveCrédito

101 15 60.000 1.800 Si 2 … No

102 2 30.000 1.500 Si 0 … Si

103 9 9.000 700 No 1 … No

104 15 18.000 950 No 0 … Si

105 10 24.000 1100 Si 0 … No

… … … … … … … ….

GERENTE en un BANCO¿Debe conceder el crédito a este cliente?

Minería de Datos

Dat

os

his

tóri

cos

Si Cuentas-Morosas > 0 entonces Devuelve-crédito = NoSi Cuentas-Morosas = 0 Y [(Salario > 1500) O (D-crédito > 10)] entonces Devuelve-crédito = Si

Pat

rón

Mo

del

o

Page 42: Brevepaseoporla mineríadedatos

Minería de Datos (DM) Ejemplos

Idcesta Huevos Aceite Pañales Vino Leche Mantequilla Salmón Azúcar …

1 Si No No Si No Si Si Si …

2 No Si No No Si No No Si …

3 No No Si No Si No No No …

4 No Si Si No Si No No No …

5 Si Si No No No Si No Si …

6 Si No No Si Si Si Si No …

7 No No No No No No No No …

8 Si Si Si Si Si Si Si No …

… … … … … … … … … …

Dat

os

his

tóri

cos

Minería de Datos

Pat

rón

Mo

del

o

GERENTE de un SUPERMERCADO¿Cuándo se compra huevos, se suele comprar aceite?

Huevos → Aceite : Confianza = 75%, Soporte = 12%

Page 43: Brevepaseoporla mineríadedatos

Minería de Datos (DM) Ejemplos

Id Sueldo Casado Vehículo Hijos Alq/Prop Sindicato Bajas/Año Antigüedad Sexo

1 1000 Si No 0 Alquiler No 7 15 H

2 2000 No Si 1 Alquiler Si 3 3 M

3 1500 Si Si 2 Propia Si 5 10 H

4 3000 Si Si 1 Alquiler No 15 7 M

5 4000 Si Si 0 Propia Si 1 6 H

6 2500 No No 0 Alquiler Si 3 16 M

7 2000 No Si 0 Alquiler Si 0 8 H

8 800 No Si 0 Propia Si 2 6 M

… … … … … … … … … …

Dat

os

his

tóri

cos

Minería de Datos

Pat

rón

Mo

del

o

GERENTE DE RR.HH. en una EMPRESA¿Qué tipos de empleados tengo?

• Grupo 1: Sin hijos y con vivienda de alquiler. Poco sindicados. Muchas bajas.• Grupo 2: Sin hijos y con vehículo. Muy sindicados. Pocas bajas. Normalmente mujeres y casas alquiladas.• Grupo 3: Con hijos, casados y vehículo. Mayoritariamente hombres propietarios vivienda. Poco

sindicados.

Page 44: Brevepaseoporla mineríadedatos

Minería de Datos (DM) Ejemplos

Producto MES-12 … MES-4 MES-3 MES-2 MES-1 MES

Televisor plano 30” 20 … 52 14 139 74 ?

Video dvd 11 … 43 32 26 59 ?

Diskman 50 … 61 14 5 28 ?

Lavadora 3 … 21 27 1 49 ?

Nevera 14 … 27 2 25 12 ?

… … … … … … … ….

GERENTE de una EMPRESA COMERCIALIZADORA¿Cuántos televisores planos se estima vender el mes que viene?

Minería de Datos

Dat

os

his

tóri

cos

Modelo Lineal: Ventas Mes Siguiente TV Planos

Pat

rón

Mo

del

o

05.0112.0233.0162.0 VideodvdTVPlanosTVPlanosTVPlanos MesVMesVMesVMesV