View
350
Download
2
Category
Preview:
Citation preview
CURSO DE ACTUALIZACIÓN PROFESIONAL EN PERIODISMO DE DATOS
SINDICATO DE PRENSA DE ROSARIO
Introducción al scraping de datos
¿Qué es scraping?
Literalmente, “to scrape” quiere decir “rascar”, “arañar”.
Es el método que nos permite extraer datos escondidos en un documento y obtenerlos en un formato que nos resulte adecuado para utilizar después.
¿Cuándo necesitamos hacer scraping?
Cuando hacemos una búsqueda de datos, muchas veces nos encontramos con información que está en formatos distintos.
Las técnicas de scraping nos permiten unificar formatos de datos para combinarlos y analizarlos luego.
Web scraping
Se denomina de ese modo a las técnicas utilizadas para obtener datos de sitios web.
Podemos hacerlo mediante el uso de comandos, extensiones y software específico.
Extraer datos de documentos PDF
Zamzar.com
Usando zamzar.com
Cargar PDF y convertir a: .xlsx
Usando zamzar.com
Agregar correo para recibir el archivo. Botón “Convert”
Usando zamzar.com
Buscar el enlace de descarga en el correo, luego hacer click en “Download now”
Usando zamzar.com
Archivo en formatos PDF y .xlsx
Scraping de imágenes
Cuando los datos están en imágenes (JPG, BMP, GIF), podemos usar software de reconocimiento óptico (OCR)
Usando free-ocr.com
Seleccionar idioma, resolver código CAPTCHA y enviar archivo.
Usando free-ocr.com
Seleccionar idioma, resolver código CAPTCHA y enviar archivo.
Usando free-ocr.com
En la próxima pantalla se mostrarán los resultados para copiar y pegar.
Recommended