ITLA Mineria Apuntes Unidad 1

Embed Size (px)

Citation preview

Instituto Tecnolgico Latinoamericano

Mineria de DatosM.C. Jos Ezequiel Meja Loaisa

Unidad 1Introduccin

OBJETIVO Dar

a conocer a los alumnos los aspectos mas relevantes de la mineria de datos.

OBJETIVOSAl trmino de esta unidad el alumno conocer los siguientes temas.

Concepto de Minera de Datos. Tipos de Datos y Modelos. Sistemas y Herramientas de Mineria de Datos. Fases de integracin y recopilacin.

DefinicinMineria de Datos. - En [Witten & Frank 2000] se define la minera de datos como el proceso de extraer conocimiento til y comprensible, previamente desconocido, desde grandes cantidades de datos almacenados en distintos formatos.

Minera de DatosLa tarea fundamental de la minera de datos, es encontrar modelos intelegibles a partir de los datos. Para que este proceso sea efectivo debera ser automtico o semiautomtico (asistido) y el uso de patrones descubiertos debera ayudar a tomar decisiones para la organizacion.

Minera de Datos

Por tanto los dos grandes retos de la minera de datos son:

Trabajar con grandes volumenes de datos, precedentes mayoritariamente de sistemas de informacin. Tcnicas adecuadas para analizar y extraer conocimiento novedoso y util.

Minera de Datos De

manera simplista pero ambiciosa, podramos decir que el objetivo de la minera de datos es convertir datos en conocimiento.

Ejemplo de la cesta de la compra

Un supermercado quiere obtener informacin sobre el comportamiento de compra de sus clientes. Piensa que de esta forma pude mejorar el servicio que les ofrece: reubicacin de los productos, localizar el emplazamiento idneo para nuevos productos, etc.

Ejemplo

Para ello dispone de la informacin de los productos que se adquieren en cada una de las compras o cestas.Idcesta 1 2 Huevos si no Aceite no no Vino si no Leche no si Salmn no si .....

34 5

sisi si

sisi no

nosi no

nono si

sino si

Ejemplo

Analizando estos datos el supermercado podra encontrar, por ejemplo, que el 100 por ciento de la veces que se compran huevos tambin se compra leche. Que el 50 por ciento de la veces que se compran huevos se compra aceite. O que el 33 por ciento de las veces que se compro vino y salmn entonces se compran lechugas.

Ejemplo

Con estos y mas datos se pueden analizar cules de estas asociaciones son frecuentes, por que una asociacin muy estrecha entre dos productos puede ser poco frecuente y, por tanto poco til. En otras palabras este conocimiento adquirido lleva a la gerencia a la toma de acciones.

Tipos de Datos a

qu tipo de datos puede aplicarse la minera de datos?

Tipos de Datos En

principio, est puede aplicarse a cualquier tipo de informacin, siendo las tcnicas de minera diferentes para cada una de ellas.

Tipos de Datos

En concreto, se va a diferenciar entre datos estructurados povenientes de las bases de datos relacionales y otros tipos de datos estructurados en bases de datos (Multimedia) y datos no estructurados provenientes de la web o de otros tipos de repositorios de documentos.

Bases de Datos Relacionales Cuales

son las caractersticas de las bases de datos relacionales?.

BD Relacionales

Una de las principales caractersticas de las bases de datos relacionales es la existencia de un esquema asociado, es decir, los datos deben seguir una estructura y son, por tanto, estructurados

BD Relacionales

Como es bien conocido, la obtencin de la informacin desde una bases de datos relacional se ha resuelto tradicionalemente a travs de lenguajes de consulta, especialmente diseado para ellos. (SQL).

BD Relacionales

Aunque las bases de datos relacionales (recogidas o no en un almacn de datos, normalizadas o estructuradas de una manera multidimensional) son fuente de datos para la mayora de las aplicaciones de la minera de datos. Muchas tcnicas de la minera de datos no son capaces de trabajar con toda la base de datos, si no solo son capaces de trabajar con una sola tabla.

Bd Relacionales Lgicamente,

mediante una consulta podemos conbinar en una sola tabla o vista minable aquella informacin de varias tablas que requiramos para cada tarea concreta de minera de datos.

Otros Tipos de BD

Aunque las bases de datos relacionales son, con gran diferencia, las ms utilizadas hoy da, existen aplicaciones que requieren otros tipos de organizacin de la informacin. Otros tipos de bases de datos que contienen datos complejos son:

Otros tipos de BD

Bases de datos especiales.

Continen informacin relacionada con el espacio fsico en un sentido amplio, estas bases de datos incluyen datos geogrficos, imgenes mdicas, redes de transporte, etc..

Otros tipos de BD

Bases de datos temporales.

Almacenan datos que incluyen muchos atributos relacionados con el tiempo o con el que ste es muy relevante.

Otros tipos de BD

Bases de datos Documentales.

Contienen descripciones para los objetos (documentos de texto) que pueden ir desde las simples palabras clave a los resmenes. Estas bases de datos pueden contener documentos no estructurados, semiestructurados o estructurados.

Otros tipos de BD

Las bases de datos multimedia.

Almacenan imgenes, audio y vdeo. Soportan objetos de gran tamao ya que por ejemplo, los videos pueden necesitar varios gigabytes de capacidad para su almacenamiento.

Otros tipos de BD

Las bases de datos Objetuales y Objetorelacionales son aproximaciones generales a la gestin de la informacin y, por tanto pueden utilizarse para los mismos usos que las relacionales o para algunas de las bases de datos especiales que acabamos de ver.

La WWW

La World Wide Web es el repositorio de informacin ms grande y diverso de los existentes en la actualidad. Por ello, hay gran cantidad de datos en la web de los que se pueden extraer conocimiento relevante y til. Este el el principal reto que enfrenta actualmente la minera web.

La WWW

Otros aspectos que dificultan la minera web son cmo determinar a que pginas debemos acceder y cmo seleccionar la informacin que va a ser til para extraer conocimiento a toda esta diversidad hace que la minera web se organice en torno a 3 cataegorias.

La WWW

Minera de contenido.- Para enecontrar patrones de los datos en las pginas web. Minera de la estructura.- Entendiendo por estructura los hipervinculos y URLs. Minera de la nevegacin.- El uso que hacen los usuarios de las pginas web.

Tipos de Modelos

En la minera de datos se tiene como objetivo analizar los datos para extrer conocimiento. Este conocimiento puede ser en forma de relaciones, patrones o reglas inferidos de los datos. En la prctica, los modelos pueden ser de 2 tipos predictivos y descriptivos.

Tipos de Modelos

Modelos predictivos.

Prentenden estimar valores futuros o desconocidos de variables de inters, que denominamos variables objeto o dependientes, usando otras variables o campos de la base de datos, a las que nos referimos como variables independientes o predictivas. Un ejemplo sera aquel que permite estimar la demanda de un nuevo producto en funcin del gasto de la publicidad.

Tipos de Modelos

Modelos descriptivos.

Identifican patrones que explican o resumen los datos, es decir sirven para explorar las propiedades de los datos examinados, no para predecir nuevos datos. Un ejemplo, una agencia de viajes desea identificar grupos de personas con los mimos gustos, con el objeto de organizar diferentes ofertas para cada grupo.

Minera de Datos Existen trminos que se utilizan como sinnimos de la minera de datos, uno de ellos se conoce como Anlisis inteligente de datos, otro trmino muy utilizado es, Descubrimiento del Conocimiento en bases de datos, KDD por sus siglas en ingles.

Relacin con otras disciplinas La minera de datos es un campo multi disciplinar que se ha desarrollado en paralelo o como prolongacin de otras tecnologias, Por ello, la investigacin y los avances de la minera de datos se nutren de las siguientes reas relacionadas.

Relacin con otras disciplinas Bases de Datos. Recuperacin de informacin. Estadsticas. Aprendizaje automtico. Sistema de toma de decisin. Visualizacin de datos. Computacin paralela y distribuida.

Proceso de Extraccin. El proceso de KDD se organiza entorno a cinco fases que son: Integracin Seleccin, limpieza y transformacin. Minera de datos Evaluacin e interpretacin. Difusin y uso.

Tcnicas de Minera de Datos Dado que la minera de datos es un campo multidiciplinar, cada uno de ellos a desarrollado sus propios algoritmos. Sin embargo se pueden considerar aspectos que manejan cada algoritmo de manera general.

Tcnicas de Minera de Datos Procesos Estadsticos. Mtodos basados en el nucleo. Mtodos bayesianos. rboles de decisin. Redes neuronales artificiales. Tcnicas de conteo. Aprendizaje basado en instancias o casos. Algoritmos Evolutivos.

Bibliografa

Introduccin a la Minera de Datos, Jos Hernndez Orallo, Cesar Ferri Ramirez, Ed. Person,2004.