Reconocimiento Óptico de Caracteres

Preview:

DESCRIPTION

Utilería para digitalizar, generar OCR y crear archivos PDF de código abierto Luis René Salas López DanniHilton@gmail.com Coordinación de Automatización Bibliotecaria Xalapa. Reconocimiento Óptico de Caracteres. OCR. Los despido a todos. _ Estoy muy cansado… Quiero dormirme . - PowerPoint PPT Presentation

Citation preview

Primer Foro Universitario de Software Libre3, 4, y 5 de Junio de 2013

Proyecto GNU

FreeBSD

Linux

Utilería para digitalizar, generar OCR y crear archivos PDF de código abierto

Luis René Salas LópezDanniHilton@gmail.com

Coordinación de Automatización Bibliotecaria

Xalapa

Primer Foro Universitario de Software Libre3, 4 y 5 de Junio de 2013

Reconocimiento Óptico de Caracteres

Los despido a todos._Estoy muy cansado… Quiero dormirme._¿No vas a merendar?_No. Tengo mucho sueño...

OCR

Primer Foro Universitario de Software Libre3, 4 y 5 de Junio de 2013

Tesseract-OCR

• Desarrollado por HP entre 1985 y 1994.• Nunca se usó en un producto HP.• Código liberado en 2005 y adoptado por

Google.• Altamente portable• Reconoce más de 60 lenguajes.

Primer Foro Universitario de Software Libre3, 4 y 5 de Junio de 2013

Creación del documento

• Cuando se realiza el proceso de OCR sobre una imagen, podemos obtener un archivo con ubicación espacial del texto: hocr

Primer Foro Universitario de Software Libre3, 4 y 5 de Junio de 2013

Creación del documento

• hOcr2Pdf.NETEs una librería para convertir .hocr html producidos por el motor Tessract-OCR o Cuneiform en pdf buscable. Liberado bajo licencia GNU General Public License version 2 (GPLv2).

Primer Foro Universitario de Software Libre3, 4 y 5 de Junio de 2013

Creación del documento

• iTextSharpEs una librería compatible con C# de iText para java de código abierto para la creación y manipulación de archivos PDF. Liberado bajo licencia Affero GNU Public License.

Primer Foro Universitario de Software Libre3, 4 y 5 de Junio de 2013

Creación del documento

Primer Foro Universitario de Software Libre3, 4 y 5 de Junio de 2013

Creación del PDF

Primer Foro Universitario de Software Libre3, 4 y 5 de Junio de 2013

Capacidad de búsqueda

Primer Foro Universitario de Software Libre3, 4 y 5 de Junio de 2013

Referencias

• “hOcr2Pdf.NET”, consultada por Internet el 29 de Abril del 2013. Dirección de Internet: https://hocrtopdf.codeplex.com/

• “iTextSharp”, consultada por Internet el 29 de Abril del 2013. Dirección de Internet: http://sourceforge.net/projects/itextsharp/

• “Tesseract-OCR”, consultada por Internet el 29 de Abril del 2013. Dirección de Internet: https://code.google.com/p/tesseract-ocr/

Recommended