Todos en algún momento hemos usado el web scraping,  ¿cómo?, como vimos anteriormente el web scraping  se usa para la extracción de información, por lo cual,  nosotros nos volvemos el «Scraper» o el raspador de información,  cuando hacemos copy/ paste. Si se ha hecho uso del copy/paste  extrayendo información para algún ensayo o monografía, o bien plagiando una tarea completa ya es un experto del web scraping, pero, de manera manual.

La estructura es bastante sencilla, tenemos un conjunto de páginas web, a las cuales queremos scrapear,  luego con alguna tecnología de Web Scraping  raspamos todas las páginas web, para posteriormente limpiar, estructurar y guardar los datos  en una base datos, archivo separado por coma (csv), excel o xml.

Muchas de las tecnologías, entidades usan el web Scraping

  • Sitios Web
  • Buscadores web
  • Noticias
  • Redes sociales.
  • Investigación de información
  • Compañías que de un inicio no tienen grandes cantidades de datos para sus negocios.

Web Scraping es una herramienta que es muy usada para el uso de investigación, ha habido muchos proyectos interesantes con el uso de esta técnica. Si no podemos acceder a información de una API  y está en la página, podemos acceder a esa información con el uso del Scraping.

Esta técnica puede potenciar otras tecnologías como machine Learning, Inteligencia Artificial, internet de las cosas, etc.

Se puede combinar de distintas formas Proyectos interesantes

El Web Scraping en combinación con el Big Data,  sistema para detectar con probabilidades de suicidio en una región (Lo cual es muy importante ya que la depresión es considerada la enfermedad del siglo).

El web Scraping en combinación con el mercadeo, se han creado sistemas que hagan comparación de precios  de diferentes plataformas.

El Web Scraping con el Deep Learning, un investigador pudo raspar imágenes de Instagram y Tinder con sus “Likes” para realizar un modelo predictivo de que si una fotografía podría ser considerada atractiva.

Tecnologías usadas y campos

  • Motor de búsqueda.
  • Redes sociales.
  • RSS un formato XML para distribuir contenido en la web.
  • Datos de gráficos.
  • Información de empresa.