9
1 Web Scraping con Python Recolección de datos estructurados y no estructurados Curso:

CursoWeb Scraping con Python Recolección de datos estructurados y no estructurados Curso: Web: dmc.pe Teléfono. 253-5066 Móvil: 924209481/ 975491764 Email: [email protected] 2

  • Upload
    others

  • View
    7

  • Download
    0

Embed Size (px)

Citation preview

Page 2: CursoWeb Scraping con Python Recolección de datos estructurados y no estructurados Curso: Web: dmc.pe Teléfono. 253-5066 Móvil: 924209481/ 975491764 Email: capacitacion@dmc.pe 2

Web: dmc.pe Teléfono. 253-5066 Móvil: 924209481/ 975491764 Email: [email protected]

2

Existe muchos datos en Internet que están esperando ser analizados para convertirse en información y posteriormente en conocimiento. Pero, ¿cómo obtener esos datos de una manera escalable y estructurada? Lo que necesitamos hacer se llama web scraping. Web scraping es un técnica que sirve para obtener datos de una página web seleccionada de forma automatizada y guardarlos en un archivo o en una base de datos. Así mismo, esta técnica nos va a permitir transformar los datos no estructurados de la web en datos estructurados. Este curso permitirá aprender a empezar a recolectar datos que se encuentran en distintas páginas web para poder utilizarlos en tus proyectos de análisis de datos, machine learning, investigación, entre otros.

Presentación

9 Desarrolladores, analistas, jefes de proyecto, personal de instituciones involucradas en el diseño, desarrollo de modelos predictivos que buscan enriquecer sus datasets internos.

9 Profesionales de áreas de inteligencia comercial, marketing digital, business intelligence, etc. 9 Administradores de riesgos y especialistas en modelos. 9 Académicos, investigadores que busquen probar sus investigaciones con data distinta. 9 Científicos de datos, entusiastas y público en general.

Dirigido a:

Conocimientos básicos de programación, de preferencia experiencia usando el lenguaje de programación Python. Conocimientos básicos de estructura de páginas web, HTML.

Requisitos:

Page 3: CursoWeb Scraping con Python Recolección de datos estructurados y no estructurados Curso: Web: dmc.pe Teléfono. 253-5066 Móvil: 924209481/ 975491764 Email: capacitacion@dmc.pe 2

Web: dmc.pe Teléfono. 253-5066 Móvil: 924209481/ 975491764 Email: [email protected]

3

Metodología

Objetivos

Nuestra metodología es Learning by Doing. El aprendizaje que proponemos se basa en la práctica y el desarrollo de casos reales. El analítico aprende mejor en la práctica y solucionando casos, los cuales son tomados de las experiencias del medio local e internacional.

Para eso, se dispone de lo siguientes herramientas: 9 Base de datos de prueba para aplicar lo aprendido. 9 Casos de aplicación, situaciones reales con aplicación en el mercado peruano e

internacional. 9 Material didáctico con el desarrollo del curso. 9 Una PC por participante.

9 Entender que es web scraping, cómo y sobre qué funciona. Diferencia con web crawling.

9 Poder entender y hacer el análisis del HTML de una página web. 9 Conocer los métodos de extracción. 9 Conocer la librería Scrapy para realizar la tarea de web scraping. 9 Reconocer páginas web que usan JavaScript. 9 Aprender a automatizar interacciones con Python usando Selenium. 9 Automatizar el ingreso de captchas (reconocer dígitos). 9 Desarrollo de un spider para un e-commerce. 9 Aprender a automatizar un web spider.

Page 4: CursoWeb Scraping con Python Recolección de datos estructurados y no estructurados Curso: Web: dmc.pe Teléfono. 253-5066 Móvil: 924209481/ 975491764 Email: capacitacion@dmc.pe 2

Web: dmc.pe Teléfono. 253-5066 Móvil: 924209481/ 975491764 Email: [email protected]

4

Beneficios 9 Certificado de especialización. 9 Pertenecer a la comunidad más grande de profesionales de business analytics. 9 Plana docente compuesta por líderes del sector, especializados en herramientas y temas a

desarrollar. 9 Descuentos en programas complementarios. 9 Laboratorios de cómputo. 9 Material didáctico con el desarrollo del curso. 9 Acceso a bibliografía especializada. 9 Acceso a la bolsa de trabajo especializada de DMC.

• Rentabilidad única en el mercado laboral.• Desarrollo de pensamiento crítico y analítico.• Serás un profesional muy valorado en la actualidad.

Las empresas actuales están buscando profesionales que se diferencien en la gestión.Las ventajas competitivas que obtienes al estar en constante capacitación son muchas,entre las que destacamos:

Page 5: CursoWeb Scraping con Python Recolección de datos estructurados y no estructurados Curso: Web: dmc.pe Teléfono. 253-5066 Móvil: 924209481/ 975491764 Email: capacitacion@dmc.pe 2

Web: dmc.pe Teléfono. 253-5066 Móvil: 924209481/ 975491764 Email: [email protected]

5

SyllabusI. Preliminares: • Introducción al web scraping.• Conceptos relacionados al web scraping.• Introducción HTML - tags.

II. Herramientas para un análisis de una página web:• Análisis de una página web.• Métodos de extracción: expresiones regulares, BeautifulSoup, selectores.• Construcción de un web scraper simple.

III. Web Scraping con Scrapy: • Selectores: XPATH, CSS.• Mi primer spider.• Conociendo la arquitectura de un proyecto con Scrapy.• Items, Items Loaders.• Callbacks.• Pipelines: limpiando la data obtenida.

IV. Scraping en páginas web con JavaScript / automatizar ingreso captchas I: • Reconocer código JavaScript.• Usar Selenium para poder automatizar las interacciones en una página web.• Ingresar los dígitos de un captcha automáticamente.

V. Spider final: • Análisis de la página web.• Implementación del spider.• Pruebas unitarias.• Puesta en producción, automatización del spider.

InstructorMichael Larico B.:

Bachiller de Ingeiería de Sistemas. Actualmente se desempeña como Data Engineer en el Banco de Crédito del Perú. Con experiencia en big data, business intelligence, lenguajes de programación como Python y herramientas de visualización y Spark, SQL en empresas

del sector telecomunicaciones.

Nota: Todos los profesores mencionados están relacionados al curso especializado. No necesariamente podrían desarrollar una clase.

Paulo César Tuya R.:

Predocente de la Pontificia Universidad Católica del Perú en la especialidad de Ingeniería Informática. Desarrollador de proyectos de extracción de información y análisis de datos estructurados y no estructurados, experiencia en la construcción de modelos de

prospección de riesgo crediticio en el sector bancario.

Page 6: CursoWeb Scraping con Python Recolección de datos estructurados y no estructurados Curso: Web: dmc.pe Teléfono. 253-5066 Móvil: 924209481/ 975491764 Email: capacitacion@dmc.pe 2

Web: dmc.pe Teléfono. 253-5066 Móvil: 924209481/ 975491764 Email: [email protected]

6

Medios de pago

1. Depósito en las cuentas BBVA o BCP:

N° Cuenta de Ahorros: 0011-0177-02-00180473

N° Cuenta de Corriente: 193-2251181-0-01

Razón Social

R.U.C

J&J Data Mining Consulting S.A.C

20520972740

3. Oficina DMC:

2. Pago online:

Pagos en efectivo o con cualquier tipo de tarjeta vía:

Dirección: Calle Río de la Plata 167, Of. 203, San Isidro. Lima - Perú.Horario de atención: de lunes a viernes de 9:00 a.m. a 8:00 p.m. y sábados de 9:00 a.m. a 6:00 p.m.

Page 7: CursoWeb Scraping con Python Recolección de datos estructurados y no estructurados Curso: Web: dmc.pe Teléfono. 253-5066 Móvil: 924209481/ 975491764 Email: capacitacion@dmc.pe 2

Web: dmc.pe Teléfono. 253-5066 Móvil: 924209481/ 975491764 Email: [email protected]

7

CertificadoCertificación otorgada a nombre de DMC Perú, empresa de capacitación líder en herramientas analíticas del Perú.

9 Certificado de especialización

¿Cómo obtengo mi certificado de especialización?

Al finalizar el curso el capacitador evaluará a los participantes con un caso aplicativo: 9 La nota mínima requerida es (14) catorce. 9 Asistencia mínima del 80% en todo el curvso.

Page 8: CursoWeb Scraping con Python Recolección de datos estructurados y no estructurados Curso: Web: dmc.pe Teléfono. 253-5066 Móvil: 924209481/ 975491764 Email: capacitacion@dmc.pe 2

Web: dmc.pe Teléfono. 253-5066 Móvil: 924209481/ 975491764 Email: [email protected]

8

DMC PerúDMC es una empresa pionera dedicada a la extracción de conocimiento desde grandes bases de datos, con más de 10 años experiencia en la capacitación de temas de Minería de Datos, Scoring de Riesgo Crediticio, Business Intelligence, Técnicas de segmentación, Business Analytics y Big Data. DMC es la única empresa peruana reconocida como uno de los referentes de capacitación en temas de Big Data.

Algunas empresas que confiaron en nosotros:

Page 9: CursoWeb Scraping con Python Recolección de datos estructurados y no estructurados Curso: Web: dmc.pe Teléfono. 253-5066 Móvil: 924209481/ 975491764 Email: capacitacion@dmc.pe 2

Web: dmc.pe Teléfono. 253-5066 Móvil: 924209481/ 975491764 Email: [email protected]

9

Contacto

Email: [email protected]: www.dmc.peTeléfono: (511) 253-5066Móvil: 924209481 / 975491764 Dirección: Calle Río de la Plata 167, Of. 203. San Isidro. Lima - Perú.Horario de atención: de lunes a viernes de 9:00 a.m. a 8:00 p.m. y sábados de 9:00 a.m. a 6:00 p.m.