La carrera por bloquear los bots de scraping de OpenAI se está desacelerando.

El auge de la IA y los acuerdos de licencias

Es demasiado pronto para decir cómo se desarrollará la serie de acuerdos entre empresas de IA y editores. Sin embargo, OpenAI ya ha logrado una victoria clara: sus rastreadores web no están siendo bloqueados por los principales medios de noticias al ritmo que solían estarlo.

Los bloqueos de GPTBot

El auge de la IA generativa desató una carrera por los datos —y una subsiguiente carrera por la protección de datos (por lo menos en la mayoría de los sitios web de noticias)— en la que los editores buscaron bloquear los rastreadores de IA y evitar que su trabajo se convirtiera en datos de entrenamiento sin consentimiento. Por ejemplo, cuando Apple presentó un nuevo agente de IA este verano, una serie de principales medios de comunicación optaron rápidamente por excluir el raspado web de Apple utilizando el Protocolo de Exclusión de Robots, o robots.txt, el archivo que permite a los webmasters controlar los bots. Hay tantos nuevos bots de IA en el escenario que puede sentirse como jugar al “martillo y el topo” para mantenerse al día.

La tendencia hacia la disminución de bloqueos

El GPTBot de OpenAI tiene el mayor reconocimiento de nombre y también es bloqueado más frecuentemente que competidores como Google AI. El número de sitios web de medios de comunicación de alto rango que utilizan robots.txt para “no permitir” el GPTBot de OpenAI aumentó dramáticamente desde su lanzamiento en agosto de 2023 hasta el otoño de ese año, y luego aumentó de manera constante (pero más gradual) de noviembre de 2023 a abril de 2024, según un análisis de 1,000 medios de noticias populares realizado por la empresa emergente de detección de IA Originality AI. En su punto máximo, la cifra era de poco más de un tercio de los sitios web; ahora ha caído a cerca de un cuarto. Dentro de un grupo más pequeño de los medios de comunicación más destacados, la tasa de bloqueo sigue siendo superior al 50 por ciento, pero ha disminuido desde alturas de casi el 90 por ciento a principios de este año.

Impacto de los nuevos acuerdos

Pero en mayo pasado, después de que Dotdash Meredith anunció un acuerdo de licencia con OpenAI, ese número disminuyó significativamente. Luego volvió a bajar a finales de mayo cuando Vox anunció su propio acuerdo, y nuevamente una vez más este agosto cuando la empresa matriz de WIRED, Condé Nast, cerró un trato. La tendencia hacia un aumento de bloqueos parece haber terminado, al menos por ahora.

Estos descensos tienen un sentido obvio. Cuando las empresas entran en asociaciones y dan permiso para que se utilicen sus datos, ya no están incentivadas a barricarlo, por lo que seguiría que actualizarían sus archivos robots.txt para permitir el rastreo; si se hacen suficientes acuerdos, el porcentaje general de sitios que bloquean rastreadores probablemente disminuirá. Algunos medios desbloquearon los rastreadores de OpenAI el mismo día en que anunciaron un acuerdo, como The Atlantic. Otros se tomaron unos días o semanas, como Vox, que anunció su asociación a finales de mayo pero desbloqueó el GPTBot en sus propiedades hacia finales de junio.

La importancia de robots.txt

Robots.txt no es legalmente vinculante, pero ha funcionado durante mucho tiempo como el estándar que rige el comportamiento de los rastreadores web. Durante la mayor parte de la existencia de Internet, las personas que administraban páginas web esperaban que las demás cumplieran con el archivo. Cuando una investigación de WIRED a principios de verano descubrió que la startup de IA Perplexity probablemente estaba eligiendo ignorar las órdenes de robots.txt, la división de nube de Amazon lanzó una investigación sobre si Perplexity había violado sus reglas. No es una buena imagen ignorar robots.txt, lo cual probablemente explica por qué tantas empresas de IA prominentes —incluida OpenAI— afirman explícitamente que lo utilizan para determinar qué rastrear. El CEO de Originality AI, Jon Gillham, cree que esto añade una urgencia adicional al esfuerzo de OpenAI por hacer acuerdos. “Está claro que OpenAI ve el ser bloqueado como una amenaza a sus ambiciones futuras”, dice Gillham.

Fuente y créditos: www.wired.com

Cats: Business,Business / Artificial Intelligence,unblocked