Upload
christian-ariza-porras
View
210
Download
2
Embed Size (px)
DESCRIPTION
Pequeña introducción al laboratorio de Weka, para el curso BigData Analytics de la Universidad de los Andes, usando un ejemplo de clasificación de texto.
Citation preview
Introducción a Weka
Colección de algoritmos y herramientas de machine learning para minería de datos.
Christian Fernando Ariza Porrashttp://[email protected]@cronosnull
Descarga:
http://www.cs.waikato.ac.nz/ml/weka/index.html
Interfaz de usuario
Explorer
Experimenter
Knowledge Flow
Command Line Interface
CLASIFICACIÓN DE TEXTOEjemplo práctico
Cargar los datos
• Antes de poder entrenar el clasificado necesitamos llevar los datos a un formato adecuado.
• Utilizamos la pestaña preprocess de la interfaz experimenter.
• Weka admite formatos y fuentes variadas.
Importar un directorio
• Cada subdirectorio corresponde a una categoría.
• Cada archivo corresponde a una instancia.
Importar un directorio
• Cada subdirectorio corresponde a una categoría.
• Cada archivo corresponde a una instancia.
Transformar los datos
Transformar los datos: Filtros
Transformar los datos: Filtros
Transformar los datos: Filtros
Entrenar y validar un clasificador
Entrenar y validar un clasificador
Cross Validation
• Técnica para estimar el desempeño de un predictor en un data set independiente.
Imagen tomada de: http://chrisjmccormick.wordpress.com/2013/07/31/k-fold-cross-validation-with-matlab-code/
Precision y Recall
• True positive (TP)• False positive (FP)• True Negative (TN)• False Negative (FN)
• Precision: TP/(TP+FP)
• Recall: TP/(TP+FN)
Usar el modelo entrenado en una aplicación externa.