Scraping

Preview:

Citation preview

CURSO DE ACTUALIZACIÓN PROFESIONAL EN PERIODISMO DE DATOS

SINDICATO DE PRENSA DE ROSARIO

Introducción al scraping de datos

¿Qué es scraping?

Literalmente, “to scrape” quiere decir “rascar”, “arañar”.

Es el método que nos permite extraer datos escondidos en un documento y obtenerlos en un formato que nos resulte adecuado para utilizar después.

¿Cuándo necesitamos hacer scraping?

Cuando hacemos una búsqueda de datos, muchas veces nos encontramos con información que está en formatos distintos.

Las técnicas de scraping nos permiten unificar formatos de datos para combinarlos y analizarlos luego.

Web scraping

Se denomina de ese modo a las técnicas utilizadas para obtener datos de sitios web.

Podemos hacerlo mediante el uso de comandos, extensiones y software específico.

Extraer datos de documentos PDF

Zamzar.com

Usando zamzar.com

Cargar PDF y convertir a: .xlsx

Usando zamzar.com

Agregar correo para recibir el archivo. Botón “Convert”

Usando zamzar.com

Buscar el enlace de descarga en el correo, luego hacer click en “Download now”

Usando zamzar.com

Archivo en formatos PDF y .xlsx

Scraping de imágenes

Cuando los datos están en imágenes (JPG, BMP, GIF), podemos usar software de reconocimiento óptico (OCR)

Usando free-ocr.com

Seleccionar idioma, resolver código CAPTCHA y enviar archivo.

Usando free-ocr.com

Seleccionar idioma, resolver código CAPTCHA y enviar archivo.

Usando free-ocr.com

En la próxima pantalla se mostrarán los resultados para copiar y pegar.

Recommended