10

Click here to load reader

Modelo de Clasificacion 1

Embed Size (px)

Citation preview

Page 1: Modelo de Clasificacion 1

MODELO DE CLASIFICACION

La clasificación asume que hay un conjunto de objetos caracterizados por algún atributo o rasgo que pertenece a diferentes clases. La etiqueta de clase es un valor (simbólico) discreto y es conocido para cada objeto. El objetivo es para construir los modelos de clasificación (a veces llamados clasificadores).

La Clasificación es el proceso de dividir un conjunto de datos en grupos mutuamente excluyentes

Agrupa los datos de acuerdo similitudes o clases

El objetivo de las técnicas de clasificación es la asignación de objetos a uno de varios grupos bien definidos

Los modelos de clasificación sobre todo son usados para el modelado predictivo.

Matriz de confusión

Una matriz de confusión ordena todos los casos del modelo en categorías, determinando si el valor de predicción coincide con el valor real, se cuentan todos los casos de cada categoría y los totales se muestran en la matriz. La matriz de confusión es una herramienta estándar de evaluación de modelos estadísticos.

Compara los valores reales con los valores de predicción para cada estado de predicción especificado. Las filas de la matriz representan los valores de predicción para el modelo, mientras que las columnas representan los valores reales. Las categorías usadas en el análisis son falso positivo, verdadero positivo, falso negativo y verdadero negativo.

Una matriz de confusión es una herramienta importante para evaluar los resultados de la predicción, ya que hace que resulte fácil entender y explicar los efectos de las predicciones erróneas. Al ver la cantidad y los porcentajes en cada celda de la matriz, podrá saber rápidamente en cuántas ocasiones ha sido exacta la predicción del modelo.

Page 2: Modelo de Clasificacion 1

En la tabla siguiente se muestra la matriz de confusión donde 0 significa No y 1 significa Sí.

La primera celda de resultados, que contiene el valor 362, indica el número de verdaderos positivos para el valor 0.Dado que 0 indica que el cliente no compró una bicicleta, esta estadística indica que el modelo predijo el valor correcto para quienes no compraron bicicleta en 362 casos.

La celda situada directamente debajo de esa, que contiene el valor 121, indica el número de falsos positivos, o número de veces que el modelo predijo que alguien compraría una bicicleta cuando en realidad no lo hizo.

La celda que contiene el valor 144 indica el número de falsos positivos para el valor 1.Dado que 1 significa que el cliente compró una bicicleta, esta estadística indica que, en 144 casos, el modelo predijo que alguien no compraría una bicicleta cuando sí lo hizo.

Finalmente, la celda que contiene el valor 373 indica el número de verdaderos positivos para el valor de destino 1.En otras palabras, en 373 casos el modelo predijo correctamente que alguien compraría una bicicleta.

Sumando los valores de las celdas contiguas diagonalmente, se puede determinar la exactitud total del modelo. Una diagonal indica el número total de predicciones exactas y la otra indica el número total de predicciones erróneas.

Arboles de Decisión

Son estructuras en forma de árbol que representan un conjunto de decisiones.

Tales decisiones generan reglas para la clasificación de un conjunto de datos.

Los Arboles de Decisión se utilizan, generalmente, cuando el objetivo es realizar una clasificación o una predicción categórica y no tanto para ejecutar predicciones de variables cuantitativas, por lo tanto, requiere que todas las variables independientes sean categóricas.

Page 3: Modelo de Clasificacion 1

El algoritmo de árboles de decisión genera un modelo de minería de datos mediante la creación de una serie de divisiones en el árbol. Estas divisiones se representan como nodos. El algoritmo agrega un nodo al modelo cada vez que una columna de entrada tiene una correlación significativa con la columna de predicción. La forma en que el algoritmo determina una división varía en función de si predice una columna continua o una columna discreta.

Los requisitos para un modelo de árboles de decisión son los siguientes:

Una columna key: cada modelo debe contener una columna numérica o de texto que identifique cada registro de manera única. No están permitidas las claves compuestas.

Una columna de predicción. Se requiere al menos una columna de predicción. Puede incluir varios atributos de predicción en un modelo y pueden ser de tipos diferentes, numérico o discreto. Sin embargo, el incremento del número de atributos de predicción puede aumentar el tiempo de procesamiento.

Columnas de entrada. Se requieren columnas de entrada, que pueden ser discretas o continuas. Aumentar el número de atributos de entrada afecta al tiempo de procesamiento.

Poda

Es el proceso de cortar o suprimir nodos de un árbol.

La poda se suele aplicar después de construir el árbol completo ya que la correcta estimación a priori del beneficio obtenido al simplificar un árbol durante su construcción es muy difícil. La poda ha de realizarse en función de algún estimador honesto del error de clasificación del árbol de decisión.

Pre-poda

Aplican un criterio según va creciendo el árbol. Su objetivo es detener el crecimiento del árbol antes que se produzca.

Post-poda

Luego de creado el árbol se decide cuales nodos no serán tomados en cuenta de acuerdo aún criterio determinado.

Para eliminar los subárboles que no contribuyen significativamente a la precisión de la clasificación.

Planteamiento del ejercicio:

En el siguiente ejemplo vamos a hacer un análisis con información donde se desea predecir qué clientes van a comprar o no una bicicleta

Page 4: Modelo de Clasificacion 1

Árbol de Decisión

Red de Dependencia

Matriz de Confusión

Page 5: Modelo de Clasificacion 1

Redes Bayesianas

Es un modelo probabilístico que relaciona un conjunto de variables aleatorias mediante un grafo dirigido que indica explícitamente influencia causal. Las redes Bayesianas son gráficos a cíclicos dirigidos cuyos nodos representan variables y los arcos que los unen codifican dependencias condicionales entre las variables. Los nodos pueden representar cualquier tipo de variable, ya sea un parámetro medible (o medido), una variable latente o una hipótesis

Las redes bayesianas o probabilísticas se fundamentan en la teoría de la probabilidad y combinan la potencia del teorema de Bayes con la expresividad semántica de los grafos dirigidos.

Aprendizaje de las redes Bayesianas

El aprendizaje en la redes bayesianas consiste en definir la red probabilística a partir de datos almacenados en bases de datos en lugar de obtener el conocimiento del experto.

Este tipo de aprendizaje ofrece la posibilidad de inducir la estructura gráfica de la red a partir de los datos observados y de definir las relaciones entre los nodos basándose también en dichos casos; a estas dos fases se las puede denominar respectivamente aprendizaje estructural y aprendizaje paramétrico.

Aprendizaje estructural: obtiene la estructura de la red bayesiana a partir de bases de datos, es decir, las relaciones de dependencia e independencia entre las variables involucradas.

Aprendizaje paramétrico: dada una estructura y las bases de datos, obtiene las probabilidades a priori y condicionales requeridas.

Un clasificador bayesiano se puede ver como un caso especial de una red bayesiana en la cual hay una variable especial que es la clase y las demás variables son los atributos. La estructura de esta red depende del tipo de clasificador.

Page 6: Modelo de Clasificacion 1

Grafica de la Red Bayesiana

Resumen del Reporte y Matriz de Confusion.

Page 7: Modelo de Clasificacion 1

Ventajas y Desventajas

Ventajas de usar arboles de decisión Ventajas de usar Redes BayesianasSe plantea el problema para que todas las opciones sean analizadas.

Permite analizar totalmente las posibles consecuencias de tomar una decisión.

Provee un esquema para cuantificar el costo de un resultado y la probabilidad de que suceda.

Ayuda a realizar las mejores decisiones sobre la base de la información existente y de las mejores suposiciones.

Provee una estructura sumamente efectiva dentro de la cual se puede estimar cuales son las opciones e investigar las posibles consecuencias de seleccionar cada una de ellas

Nos ayuda a realizar las mejores decisiones sobre la base de la información existente y de las mejores suposiciones.

Generalmente, son fáciles de construir y de entender.

Las inducciones de estos clasificadores son extremadamente rápidas, requiriendo solo un paso para hacerlo.

Es muy robusto considerando atributos irrelevantes.

Toma evidencia de muchos atributos para realizar la predicción final.

Desventajas de Arboles de DecisiónSólo es recomendable para cuando el número de acciones es pequeño y no son posibles todas las combinaciones.

En la elección de un modelo, existe una cantidad muy limitada y dificulta para elegir el árbol óptimo.

Presenta inconvenientes cuando la cantidad de alternativas es grande y cuanto las decisiones no son racionales.

Al no tener claridad de objetivos, es difícil de organizar las ideas

Page 8: Modelo de Clasificacion 1