Cloudflare suma una nueva función gratuita en sus servicios de Internet. Esta herramienta bloquea automáticamente los bots de Inteligencia Artificial (IA) que realizan ‘web scraping’.
El objetivo es evitar que estos bots recopilen datos de los sitios web de sus clientes.
El aumento de la IA generativa ha incrementado la demanda de contenido para entrenar modelos o ejecutar inferencias. Uno de los métodos utilizados para obtener estos datos es el ‘web scraping’.
QUÉ ES EL WEB SCRAPING
El ‘web scraping’ es un proceso legal donde un ‘software’ extrae contenido HTML de sitios web. Luego, filtra y almacena esta información para entrenar modelos de IA.
Mientras algunas empresas de herramientas de IA identifican los bots que usan para recopilar datos, otras no son tan transparentes.
Cloudflare ha señalado que sus clientes no desean que los bots de IA visiten sus sitios web. Esto es especialmente cierto para aquellos bots que lo hacen de manera deshonesta.
UNA INTERNET SEGURA PARA CREADORES
Han presentado una nueva función gratuita para sus servicios de seguridad en Internet.
Esta herramienta bloquea automáticamente los bots de IA que realicen ‘web scraping’ en los sitios web de sus clientes.
La compañía ha anunciado la medida en su web. Su objetivo es proteger una Internet segura para los creadores de contenido y evitar que sus datos sean utilizados para entrenar IA.
La herramienta funciona con un solo clic.
CÓMO HABILITAR LA FUNCIÓN
Está disponible para todos los clientes de Cloudflare, incluidos los que usan el nivel gratuito de sus servicios, como la aplicación 1.1.1.1 y la plataforma SASE & SSE.
Para habilitarla, los usuarios deben acceder al apartado de ‘Bots’ en el menú de ‘Seguridad’ del servicio. Luego, deberán activar la opción ‘Raspadores y rastreadores de IA’.
Una vez activada, la función comenzará a bloquear los bots que raspen contenido para entrenar modelos de IA.
Además, Cloudflare actualizará esta función automáticamente para incluir nuevas huellas de bots infractores.
OBTENER UN CONOCIMIENTO INTEGRAL
La actualización se realizará analizando el tráfico en su red. Esto permitirá a Cloudflare obtener un conocimiento integral de la actividad de los rastreadores de IA.
Cloudflare ha compartido nuevos datos sobre el uso de bots para ‘web scraping’. La compañía ha analizado la actividad de bots en su red y ha publicado los resultados.
Según sus análisis, los bots más activos en su plataforma son Bytespider de ByteDance, Amazonbot de Amazon, ClaudeBot de Claude y GPTBot de OpenAI.
INTENTOS DE ACCESO
Bytespider lidera la lista, intentando acceder al 40,40% de los sitios web clientes de Cloudflare. GPTBot sigue de cerca, con un 35,46% de acceso a sitios para raspado de datos.
ClaudeBot, en cambio, ha accedido al 11,17% de los sitios web. Estos datos destacan la prevalencia y el impacto de estos bots en la recopilación de información.
Se ha advertido sobre la actividad de bots en la web. A pesar de la actividad detectada, muchos clientes podrían no saber que los rastreadores de IA están accediendo a sus sitios.
UN INGRESO AL 39% DEL MILLÓN DE PRINCIPALES SITIOS WEBS
En junio, se identificó que los bots de IA accedieron al 39% del millón de principales sitios web que usan Cloudflare.
Sin embargo, solo el 2,98% de estos sitios tomaron medidas para bloquear dichas solicitudes.
Cloudflare asegura que seguirá trabajando para mantener Internet como un espacio seguro para los creadores de contenido.
CLOUDFARE BUSCA QUE CREADORES MANTENTAN EL CONTROL
La compañía busca que los creadores mantengan el control sobre cómo se usa su contenido para entrenar modelos de IA. Otras plataformas también están tomando medidas similares.
Reddit, por ejemplo, planea actualizar su Protocolo de Exclusión de Robots (archivo robots.txt) para bloquear el acceso de bots automatizados a sus datos públicos.
Esto ayudará a prevenir el raspado de datos.
Fuente: EP.