Indexado de texto completo en textos digitalizados 5a Jornada sobre la Biblioteca Digital...

Preview:

Citation preview

“Indexado de texto completo en textos

digitalizados”5a Jornada sobre la Biblioteca Digital

Universitaria9 Noviembre de 2007

Marcio Luis Andrade Lessa

Biblioteca Nacional de Maestros

En que consiste

Es un buscador que le da al usuario la posibilidad de buscar frases o palabras en textos digitalizados en formato de imagen.

El material en una biblioteca digital se somete a:

• Catalogación• Digitalización• Indexado de texto completo del

contenido

Catalogación

Interfases de catalogación: IsisMarc – Catalis – Aguapey Software de catalogación y OPAC: microIsis – OpenIsis - Malette

Proceso para la digitalización

• Imágenes: registro asociado y metadatos• Digitalización de videos: registro asociado

y metadatos• Texto en imagen: se lo digitaliza y se

realiza un control de calidad.– OCR: Se realiza de manera automática un

conocimiento óptico de caracteres y se somete a algoritmos de depuración.

– Indexación: Se alimenta una base de datos con el documento asociado.

Organización del material

• Material organizado por inventario y páginas

• Software que actúa como “book reader” con conversión automática de formatos.

• Software para “streaming” de los videos digitalizados

Almacenaje

Inventario

Número de página

Sistema de archivos: ReiserFS

(Permite hasta 2.000.0000 de archivos por directorio)

Imagen: 200-360 DPI (2 MBY aprox en JPG)

00011354 - 0003 . JPG

00011354

Automatización

• Se cataloga el material agregando el registro correspondiente a la base de datos.• Se procede a la digitalización del material en las estaciones de trabajo• Control de calidad del material digitalizado• Ejecución de “script” de actualización del buscador

Reconocimiento óptico de caracteres

• Se tiene un porcentaje bajo de errores en la digitalización el mas bajo es de 2 % para implementar un buscador en un muy buen índice de errores…

• Software: GOCR –Ocrad• Mediante IPC (Interprocess comunication)• Salida mediante una (pipe)

Algoritmos de depuración

• Por distancia: vectorizado de palabras• Algoritmo de “Bayer”• B-Tree*

Software de bases de datos

Se puede implementar en:

• Berkeley DB (base de datos no relacional: MySQL y Oracle fueron construidos con ella)

• MYSQL o cualquier otro motor de base datos relacional• ZODB (Base datos orientada a objetos – Python)

Arquitectura informáticaEstaciones de trabajo

Internet

Servicios:

Sitio web

Catálogos

Lectura de documentos on-line

Streaming de video

Cluster

Linux: etherblades + GFS

ConclusionesPros: • Manera fácil y barata de implementar un buscador de texto completo en imágenes utilizando software libre.• Se realiza todo de manera casi automatizada.

Contras: • El material debe estar en buen estado y hay ciertas restricciones a algunas tipografías de los documentos (dependiendo

del OCR).• Hay que realizar una buena gestión de la calidad en los documentos digitalizados.

Contacto

Marcio Luis Andrade Lessa

Biblioteca Nacional de Maestros

Teléfono: 4129-1203

E-Mail: mandrade@me.gov.ar

Recommended