Así Cloudflare impedirá que los bots de empresas de IA ejecuten ‘web scraping’ en webs de sus clientes

El objetivo es impedir que estos bots recolecten datos de los sitios web de sus clientes. La creciente popularidad de la IA generativa ha aumentado la demanda de contenido para entrenar modelos o realizar inferencias.

12 de agosto 2024, 09:10hs

Así Cloudflare impedirá que los bots de empresas de IA ejecuten ‘web scraping’ en webs de sus clientes

Cloudflare suma una nueva función gratuita en sus servicios de Internet. Esta herramienta bloquea automáticamente los bots de Inteligencia Artificial (IA) que realizan ‘web scraping’.

El objetivo es evitar que estos bots recopilen datos de los sitios web de sus clientes.

El aumento de la IA generativa ha incrementado la demanda de contenido para entrenar modelos o ejecutar inferencias. Uno de los métodos utilizados para obtener estos datos es el ‘web scraping’.

QUÉ ES EL WEB SCRAPING

El ‘web scraping’ es un proceso legal donde un ‘software’ extrae contenido HTML de sitios web. Luego, filtra y almacena esta información para entrenar modelos de IA.

Mientras algunas empresas de herramientas de IA identifican los bots que usan para recopilar datos, otras no son tan transparentes.

Cloudflare ha señalado que sus clientes no desean que los bots de IA visiten sus sitios web. Esto es especialmente cierto para aquellos bots que lo hacen de manera deshonesta.

Cloudflare añade una nueva función gratuita para bloquear bots de IA.

UNA INTERNET SEGURA PARA CREADORES

Han presentado una nueva función gratuita para sus servicios de seguridad en Internet.

Esta herramienta bloquea automáticamente los bots de IA que realicen ‘web scraping’ en los sitios web de sus clientes.

La compañía ha anunciado la medida en su web. Su objetivo es proteger una Internet segura para los creadores de contenido y evitar que sus datos sean utilizados para entrenar IA.

La herramienta funciona con un solo clic.

CÓMO HABILITAR LA FUNCIÓN

Está disponible para todos los clientes de Cloudflare, incluidos los que usan el nivel gratuito de sus servicios, como la aplicación 1.1.1.1 y la plataforma SASE & SSE.

Para habilitarla, los usuarios deben acceder al apartado de ‘Bots’ en el menú de ‘Seguridad’ del servicio. Luego, deberán activar la opción ‘Raspadores y rastreadores de IA’.

Una vez activada, la función comenzará a bloquear los bots que raspen contenido para entrenar modelos de IA.

Además, Cloudflare actualizará esta función automáticamente para incluir nuevas huellas de bots infractores.

OBTENER UN CONOCIMIENTO INTEGRAL

La actualización se realizará analizando el tráfico en su red. Esto permitirá a Cloudflare obtener un conocimiento integral de la actividad de los rastreadores de IA.

Cloudflare ha compartido nuevos datos sobre el uso de bots para ‘web scraping’. La compañía ha analizado la actividad de bots en su red y ha publicado los resultados.

Según sus análisis, los bots más activos en su plataforma son Bytespider de ByteDance, Amazonbot de Amazon, ClaudeBot de Claude y GPTBot de OpenAI.

INTENTOS DE ACCESO

Bytespider lidera la lista, intentando acceder al 40,40% de los sitios web clientes de Cloudflare. GPTBot sigue de cerca, con un 35,46% de acceso a sitios para raspado de datos.

ClaudeBot, en cambio, ha accedido al 11,17% de los sitios web. Estos datos destacan la prevalencia y el impacto de estos bots en la recopilación de información.

La demanda de datos para IA generativa impulsa el uso de ‘web scraping’.

Se ha advertido sobre la actividad de bots en la web. A pesar de la actividad detectada, muchos clientes podrían no saber que los rastreadores de IA están accediendo a sus sitios.

UN INGRESO AL 39% DEL MILLÓN DE PRINCIPALES SITIOS WEBS

En junio, se identificó que los bots de IA accedieron al 39% del millón de principales sitios web que usan Cloudflare.

Sin embargo, solo el 2,98% de estos sitios tomaron medidas para bloquear dichas solicitudes.

Cloudflare asegura que seguirá trabajando para mantener Internet como un espacio seguro para los creadores de contenido.

CLOUDFARE BUSCA QUE CREADORES MANTENTAN EL CONTROL

La compañía busca que los creadores mantengan el control sobre cómo se usa su contenido para entrenar modelos de IA. Otras plataformas también están tomando medidas similares.

Reddit, por ejemplo, planea actualizar su Protocolo de Exclusión de Robots (archivo robots.txt) para bloquear el acceso de bots automatizados a sus datos públicos.

Esto ayudará a prevenir el raspado de datos.

Fuente: EP.