Upload
athento
View
984
Download
1
Embed Size (px)
DESCRIPTION
En esta presentación aprenderás: * Qué características de los documentos nos ayudarán a obtener mejores resultados de clasificación. * Qué mecanismos de clasificación utiliza Athento para la autoclasificación de documentos. * Qué son modelos de clasificación. * Como utilizar palabras clave para obtener mejores resultados de clasificación.
Citation preview
Autoclasificación de documentos. Buenas Prácticas y Trucos para Obtener el Mayor Rendimiento
Enero/2014
Índice
Buenas Prácticas
Método 1: Análisis de Imágenes
Método 2: Expresiones Regulares
Ejemplo práctico
Buenas Prácticas
Calidad de la imagen: mínimo 300 DPI (puntos por pulgada
Buenas Prácticas
Calidad de los documentos(manchas, dobleces, mal escaneo)
Buenas Prácticas
Formatos estándares de ImagenPDF, TIFF, PNG24, JPEG etc.
Análisis de Imágenes
Utilizando imágenes: Histograma
Análisis de Imágenes
Histograma de la imagen previa
Análisis de la Imagen
Usando el tamaño (ancho y alto)
Análisis de Imágenes
Redes Neuronales
Expresiones Regulares
Buscamos patrones en el documento(También útil para la keyword extraction)
Cómo clasificar documentos?
Nombre de Empresa (Telefónica, Walt-Disney)Tipo de Documento (Factura, Contrato)RUT ↔ C.I.F.
Cómo definir modelos?
Modelo = Plantilla = Tipo de DocumentoEjemplo: Tickets Starbucks, Tarjeta Embarque American Airlines
Why?
There is a better way to do document
management”
Gracias
Preguntas?