Upload
lalopg
View
396
Download
2
Embed Size (px)
Citation preview
UNIVERSIDAD POLITÉCNICA DE TLAXCALA
MINERÍA DE DATOS
“MODELOS PREDICTIVOS Y DESCRIPTIVOS EN MINERÍA DE DATOS”
MINERÍA DE DATOS
La Minería de Datos es un proceso que tiene como propósito descubrir, extraer y almacenar información relevante de amplias bases de datos, a través de programas de búsqueda e identificación de patrones, y que sirva como base para la toma de decisiones.
MODELOS EN MINERÍA DE DATOS Existen varios métodos y algoritmos que
se pueden aplicar en el proceso de Minería de Datos, por lo que es importante tener una clasificación de los métodos existentes. La elección del método depende del problema en estudio o el tipo de datos disponibles, el proceso de extracción de datos se rige por las aplicaciones, por esta razón, los métodos utilizados se pueden clasificar de acuerdo con el objetivo de los análisis. Se pueden distinguir tres clases principales:
METODOS PREDICTIVOS EN MINERÍA DE DATOS
Los Métodos predictivos o de Aprendizaje supervisado se basan en entrenar a un modelo o método por medio de diferentes datos para poder predecir una variable partiendo de estos mismos datos.
Y con lo que el método ya aprendió, su respuesta será que eso es un cuadrado, porque ya lo aprendió con los datos anteriores, es por ello que se le llama aprendizaje supervisado o modelo predictivo porque queremos predecir ¿qué es? Esa nueva figura.
OBJETIVO
El objetivo de los modelos predictivos es describir una o más de las variables en relación con todas las demás, son conocidos como métodos asimétricos, supervisados o directos. Se llevan a cabo mediante la búsqueda de normas de clasificación o de predicción basada en los datos, estas normas nos ayudan a predecir o clasificar el resultado futuro de una o más variables de respuesta o de destino en relación a lo que ocurre en la práctica con los motivos que la causan o bien en relación con las variables de entrada. Los principales métodos de este tipo son los desarrollados en el ámbito de la máquina de aprendizaje, tales como las redes neuronales (perceptrón de multicapa y árboles de decisión), como también lo son modelos estadísticos clásicos, como los modelos de regresión lineal y logística.
Un modelo predictivo se basa en dos tablas, la tabla de aprendizaje o tabla de entrenamiento, con ella entrenamos al modelo.
Las variables Id, Reembolso, Estado civil e ingresos anuales se les llama predictores y la variable Fraude se le llama variable a predecir.
En esta tabla es dónde generamos el modelo con algún algoritmo, ya sea redes neuronales, árbol de decisión, etc. En la tabla de testing es dónde aplicamos el modelo generado para poder medir la calidad de nuestro modelo y saber si está prediciendo de manera correcta comparando lo que tenemos en la tabla de aprendizaje con lo que contiene la tabla de testing.
MODELO PREDICTIVO O DE APRENDIZAJE SUPERVISADO
Las Técnicas Predictivas están orientadas a la predicción de valores de salida.
PREDICCIÓN
Para la estimación de variables cuantitativas, los métodos más empleados son:
Funciones de base radial
- Pueden procesar variables cuantitativas y cualitativas a la vez.
- Detecta el número de centroides óptimo, predefiniendo el número máximo de éstos y el número mínimo de registros asignados a cada centro.
- Funciona especialmente bien cuando la estructura de los datos tiende a agruparse en conjuntos, ya que implementa cierto tipo de segmentación.
PREDICCIÓN NEURONAL
- Basada en redes neuronales de propagación hacia atrás.
- Detecta de forma automática la topología más adecuada para cada problema, aunque permite especificar una concreta.
- Permite predecir datos en forma de series temporales.
- Permite implementar regresión logística.
MÉTODOS DESCRIPTIVOS EN MINERÍA DE DATOS
Los Métodos Descriptivos o aprendizaje no supervisado permiten formar grupos de datos rápidamente, también son conocidos como métodos simétricos, no supervisados o indirectos. Las observaciones son generalmente clasificadas en grupos que no son conocidos con anterioridad, los elementos de las variables pueden estar conectados entre sí de acuerdo a vínculos desconocidos de antemano, de esta manera, todas las variables disponibles son tratados en el mismo nivel y no hay hipótesis de causalidad.
MÉTODOS DESCRIPTIVOS O APRENDIZAJE NO SUPERVISADO
Las Técnicas Descriptivas están orientadas a describir un conjunto de datos.
CLASIFICACIÓN
Como métodos de clasificación supervisada (predicción de variables cualitativas), algunas técnicas son:
Clasificación basada en árboles de decisión
- Modelo de clasificación en forma de árbol de decisión
- Procesando tanto variables cuantitativas como cualitativas
- Técnicas de podado, que proporciona árboles de menor tamaño
- Son escalables, pudiendo procesar conjuntos con independencia del número de clases, atributos y registros
CLASIFICACIÓN NEURONAL
- Basada en redes neuronales de propagación hacia atrás
- Detecta de forma automática la topología más adecuada para cada problema, aunque permite especificar una concreta
- Realiza un análisis de sensibilidad para detectar las variables más significativas para cada topología
ANÁLISIS DE ASOCIACIONES
Los análisis de asociaciones y patrones secuenciales permiten extraer información desconocida de los hábitos de compra:
Análisis de asociaciones
- Detecta elementos en una transacción que implican la presencia de otros elementos en ésta misma.
- Expresa las afinidades entre elementos en forma de reglas de asociación XY, facilitando una serie de métricas como el soporte y confianza.
CONCLUSIONES
Información segura y confiable.
Se usa como alternativa para la toma de decisiones en una organización.
Permite tener de una manera más organizada los datos con el fin de poder extraer informes específicos en determinados ciclos de tiempo.
Brinda una estructura robusta en el almacenamiento de datos.