Todos en algún momento hemos usado el web scraping, ¿cómo?, como vimos anteriormente el web scraping se usa para la extracción de información, por lo cual, nosotros nos volvemos el «Scraper» o el raspador de información, cuando hacemos copy/ paste. Si se ha hecho uso del copy/paste extrayendo información para algún ensayo o monografía, o bien plagiando una tarea completa ya es un experto del web scraping, pero, de manera manual.
La estructura es bastante sencilla, tenemos un conjunto de páginas web, a las cuales queremos scrapear, luego con alguna tecnología de Web Scraping raspamos todas las páginas web, para posteriormente limpiar, estructurar y guardar los datos en una base datos, archivo separado por coma (csv), excel o xml.
Muchas de las tecnologías, entidades usan el web Scraping
- Sitios Web
- Buscadores web
- Noticias
- Redes sociales.
- Investigación de información
- Compañías que de un inicio no tienen grandes cantidades de datos para sus negocios.
Web Scraping es una herramienta que es muy usada para el uso de investigación, ha habido muchos proyectos interesantes con el uso de esta técnica. Si no podemos acceder a información de una API y está en la página, podemos acceder a esa información con el uso del Scraping.
Esta técnica puede potenciar otras tecnologías como machine Learning, Inteligencia Artificial, internet de las cosas, etc.
Se puede combinar de distintas formas Proyectos interesantes
El Web Scraping en combinación con el Big Data, sistema para detectar con probabilidades de suicidio en una región (Lo cual es muy importante ya que la depresión es considerada la enfermedad del siglo).
El web Scraping en combinación con el mercadeo, se han creado sistemas que hagan comparación de precios de diferentes plataformas.
El Web Scraping con el Deep Learning, un investigador pudo raspar imágenes de Instagram y Tinder con sus “Likes” para realizar un modelo predictivo de que si una fotografía podría ser considerada atractiva.
Tecnologías usadas y campos
- Motor de búsqueda.
- Redes sociales.
- RSS un formato XML para distribuir contenido en la web.
- Datos de gráficos.
- Información de empresa.
Primero que nada, muy buena presentación compañero.
¿Los datos obtenidos a través de web scraping se pueden utilizar fácilmente para la elaboración de dashbords y gráficas a través de procesos de minería de datos tradicional cómo ETL, es decir, esta data se puede transformar en “conocimiento”??
¡Muchas gracias! En respuesta, Si ya que frameworks como Apify, Scrapy etc… luego del proceso de scrpaeo permiten descargar los datos y almacenarlos en una base de datos según su extensión (csv,excel,xml,rss,sql,JSON). De hecho en combinación con el mercadeo y Bussines Inteligence se han creado scrpaeos para comparativas entre precios de distintas empresas, algunas empresas lo usan para ver como va la competencia. Lo de «facilmente» es relativo :v
¿Cómo se puede bloquear el web scraping?