13
CURSO DE ACTUALIZACIÓN PROFESIONAL EN PERIODISMO DE DATOS SINDICATO DE PRENSA DE ROSARIO Introducción al scraping de datos

Scraping

Embed Size (px)

Citation preview

Page 1: Scraping

CURSO DE ACTUALIZACIÓN PROFESIONAL EN PERIODISMO DE DATOS

SINDICATO DE PRENSA DE ROSARIO

Introducción al scraping de datos

Page 2: Scraping

¿Qué es scraping?

Literalmente, “to scrape” quiere decir “rascar”, “arañar”.

Es el método que nos permite extraer datos escondidos en un documento y obtenerlos en un formato que nos resulte adecuado para utilizar después.

Page 3: Scraping

¿Cuándo necesitamos hacer scraping?

Cuando hacemos una búsqueda de datos, muchas veces nos encontramos con información que está en formatos distintos.

Las técnicas de scraping nos permiten unificar formatos de datos para combinarlos y analizarlos luego.

Page 4: Scraping

Web scraping

Se denomina de ese modo a las técnicas utilizadas para obtener datos de sitios web.

Podemos hacerlo mediante el uso de comandos, extensiones y software específico.

Page 5: Scraping

Extraer datos de documentos PDF

Zamzar.com

Page 6: Scraping

Usando zamzar.com

Cargar PDF y convertir a: .xlsx

Page 7: Scraping

Usando zamzar.com

Agregar correo para recibir el archivo. Botón “Convert”

Page 8: Scraping

Usando zamzar.com

Buscar el enlace de descarga en el correo, luego hacer click en “Download now”

Page 9: Scraping

Usando zamzar.com

Archivo en formatos PDF y .xlsx

Page 10: Scraping

Scraping de imágenes

Cuando los datos están en imágenes (JPG, BMP, GIF), podemos usar software de reconocimiento óptico (OCR)

Page 11: Scraping

Usando free-ocr.com

Seleccionar idioma, resolver código CAPTCHA y enviar archivo.

Page 12: Scraping

Usando free-ocr.com

Seleccionar idioma, resolver código CAPTCHA y enviar archivo.

Page 13: Scraping

Usando free-ocr.com

En la próxima pantalla se mostrarán los resultados para copiar y pegar.