Autoclasificación de documentos con Athento: Buenas prácticas y trucos para obtener el mayor...

Preview:

DESCRIPTION

En esta presentación aprenderás: * Qué características de los documentos nos ayudarán a obtener mejores resultados de clasificación. * Qué mecanismos de clasificación utiliza Athento para la autoclasificación de documentos. * Qué son modelos de clasificación. * Como utilizar palabras clave para obtener mejores resultados de clasificación.

Citation preview

Autoclasificación de documentos. Buenas Prácticas y Trucos para Obtener el Mayor Rendimiento

Enero/2014

Índice

Buenas Prácticas

Método 1: Análisis de Imágenes

Método 2: Expresiones Regulares

Ejemplo práctico

Buenas Prácticas

Calidad de la imagen: mínimo 300 DPI (puntos por pulgada

Buenas Prácticas

Calidad de los documentos(manchas, dobleces, mal escaneo)

Buenas Prácticas

Formatos estándares de ImagenPDF, TIFF, PNG24, JPEG etc.

Análisis de Imágenes

Utilizando imágenes: Histograma

Análisis de Imágenes

Histograma de la imagen previa

Análisis de la Imagen

Usando el tamaño (ancho y alto)

Análisis de Imágenes

Redes Neuronales

Expresiones Regulares

Buscamos patrones en el documento(También útil para la keyword extraction)

Cómo clasificar documentos?

Nombre de Empresa (Telefónica, Walt-Disney)Tipo de Documento (Factura, Contrato)RUT ↔ C.I.F.

Cómo definir modelos?

Modelo = Plantilla = Tipo de DocumentoEjemplo: Tickets Starbucks, Tarjeta Embarque American Airlines

Why?

There is a better way to do document

management”

Gracias

Preguntas?