En marzo de 2023, se reveló que Meta, la empresa liderada por Mark Zuckerberg, había pagado a Bright Data, una empresa de recopilación de datos, para llevar a cabo servicios de raspado web. Esto causó controversia, ya que la empresa condenó públicamente esta práctica y había demandado a compañías que extraían datos de sus propias redes sociales y plataformas. El servicio consistía en extraer información como los ‘Me gusta’, seguidores, publicaciones y comentarios de plataformas de redes sociales como TikTok y Twitter, y de sitios de comercio electrónico como Amazon, eBay y Walmart.
El web scraping es una técnica que permite extraer y recopilar información de páginas web de manera automatizada. Se utiliza a través del uso de programas o noscripts también conocidos como ‘scrapers’, capaces de navegar por diferentes sitios web e identificar y extraer información relevante según criterios preestablecidos. Tal información se recopila y exporta a un formato que sea más útil para el usuario. La técnica implica tres etapas: acceso a la página web mediante una solicitud HTTP, análisis del contenido HTML de la página para identificar la información deseada y extracción de la información y almacenamiento en una base de datos o en un formato estructurado, como CSV o JSON.
El web scraping se utiliza para múltiples propósitos, como herramienta de investigación de mercado para recopilar datos de precios, características de productos y reseñas de productos en línea. También se emplea para realizar un análisis contextual, es decir, extraer opiniones y comentarios de usuarios en redes sociales, foros y blogs para evaluar la percepción pública de una marca, producto o servicio. Además, se utiliza para recopilar información de contacto de posibles clientes en directorios o sitios web de empresas y para estudiar tendencias del mercado, demanda y competidores mediante la recopilación y análisis de información en línea.
Las páginas web que pueden ser objeto de web scraping incluyen redes sociales como Facebook, Twitter e Instagram; plataformas bancarias y sitios de compra; plataformas de comercio electrónico como Amazon, Alibaba y otros; y sitios de reserva de viaje como Booking y Airbnb. Se debe tener mucho cuidado al realizar este procedimiento, ya que en algunos casos, puede ser ilegal o violar los términos de servicio.
El web scraping malicioso se refiere a la extracción de datos de manera ilegal o no ética, generalmente para obtener información personal o confidencial de los usuarios de un sitio web sin su consentimiento. Tal información va desde tarjetas de crédito hasta recopilación de datos de inicio de sesión. Otras formas de uso malicioso extraen toda la información de comercios o sitios web organizacionales, para suplantar marcas y productos, generando fraudes o recolectando información de clientes.
Se pueden tomar medidas para protegerse del web scraping malicioso, como no exponer información confidencial o datos personales en sitios web con acceso al público en general, utilizar archivos ‘robots.txt’ para especificar qué partes del sitio pueden ser raspaditas y por qué agentes, implementar CAPTCHAs o sistemas de autenticación para restringir el acceso a las páginas web, habilitar cuando sea posible múltiples factores de autenticación y confirmar la URL del sitio al que estas accediendo y verificar que corresponda al sitio real al que deseas navegar.