37
... Preparación de datos para su análisis David Cabo @dcabo CC BY-NC-SA

Curso de Verano "Datos y Gobierno Abierto" David Cabo

Embed Size (px)

DESCRIPTION

Ponencia de David Cabo dentro del curso de verano "Datos y gobierno Abierto" organizado por la iniciativa Aragón Open Data de la Dirección General de Nuevas Tecnologías del Gobierno de Aragón. La ponencia se celebró dentro de los cursos de verano de la Universidad de Zaragoza, en Jaca, del 10 al 12 de Julio de 2013 y se titula "Reutilización de datos abiertos y no tan abiertos"

Citation preview

Page 1: Curso de Verano "Datos y Gobierno Abierto" David Cabo

...Preparación de datos para su análisis

David Cabo @dcabo

CC BY-NC-SA

Page 3: Curso de Verano "Datos y Gobierno Abierto" David Cabo
Page 4: Curso de Verano "Datos y Gobierno Abierto" David Cabo

Open data / datos abiertos

- disponible online, gratuita - procesable por ordenadores- licencia abierta, reutilizable

Page 6: Curso de Verano "Datos y Gobierno Abierto" David Cabo
Page 7: Curso de Verano "Datos y Gobierno Abierto" David Cabo

PDF

Generadoelectrónicamente

(buscable)

Imagenescaneada

Tablas Formato complejo

Page 8: Curso de Verano "Datos y Gobierno Abierto" David Cabo

PDF

Generadoelectrónicamente

(buscable)

Imagenescaneada

Formato complejoTablas

Page 9: Curso de Verano "Datos y Gobierno Abierto" David Cabo

Tablas

1. Copiar y pegar a Excel no funciona bien

2. Programas de pago: deskUNPDF, Nitro, Acrobat Pro...

3. Servicios web gratuitos:

• cometdocs.com

• pdftoexcelonline.com

• zamzar.com

Page 10: Curso de Verano "Datos y Gobierno Abierto" David Cabo
Page 11: Curso de Verano "Datos y Gobierno Abierto" David Cabo

Tablas

PDF

Generadoelectrónicamente

(buscable)

Imagenescaneada

Formato complejo

Page 12: Curso de Verano "Datos y Gobierno Abierto" David Cabo

Formatos complejos

• Columnas, datos partidos en varias lineas, datos intercalados entre el texto...

• Las herramientas automáticas no suelen ser capaces de extraer la información

• Es necesario:

• extraer el texto del PDF (xpdf / poppler)

• y crear un programa específico (Ruby, Python, Perl... + expresiones regulares)

Page 13: Curso de Verano "Datos y Gobierno Abierto" David Cabo
Page 14: Curso de Verano "Datos y Gobierno Abierto" David Cabo
Page 15: Curso de Verano "Datos y Gobierno Abierto" David Cabo
Page 16: Curso de Verano "Datos y Gobierno Abierto" David Cabo
Page 17: Curso de Verano "Datos y Gobierno Abierto" David Cabo

Tablas

PDF

Generadoelectrónicamente

(buscable)

Formato complejo

Imagenescaneada

Page 18: Curso de Verano "Datos y Gobierno Abierto" David Cabo

Imágenes

• El texto original no está disponible: no podemos buscar en él, ni copiarlo

• Software para reconocer carácteres (OCR)

• La fiabilidad depende de la calidad de la entrada (limpieza, resolución, tipo de letra)

• Bastante trabajo:

• Hay que revisar el resultado

• Difícil de automatizar para muchos ficheros

Page 19: Curso de Verano "Datos y Gobierno Abierto" David Cabo

OCROpen Source

• Tesseract + OCROpus

• Usado por Google

• No es fácil de instalar y utilizar

Comerciales

• AbbyyReader

• Adobe Acrobat Pro

• Solid

• Google Docs (gratis)

Page 20: Curso de Verano "Datos y Gobierno Abierto" David Cabo
Page 21: Curso de Verano "Datos y Gobierno Abierto" David Cabo
Page 22: Curso de Verano "Datos y Gobierno Abierto" David Cabo
Page 23: Curso de Verano "Datos y Gobierno Abierto" David Cabo
Page 24: Curso de Verano "Datos y Gobierno Abierto" David Cabo
Page 25: Curso de Verano "Datos y Gobierno Abierto" David Cabo
Page 27: Curso de Verano "Datos y Gobierno Abierto" David Cabo
Page 32: Curso de Verano "Datos y Gobierno Abierto" David Cabo
Page 33: Curso de Verano "Datos y Gobierno Abierto" David Cabo
Page 36: Curso de Verano "Datos y Gobierno Abierto" David Cabo

http://www.propublica.org/nerds/item/doc-dollars-guides-collecting-the-data

Ruby, Google Refine, Firebug, Nokogiri, Tesseract

Page 37: Curso de Verano "Datos y Gobierno Abierto" David Cabo

¿Preguntas?

David Cabo (@dcabo)