Grandes sitios dicen no al scraping de IA de Apple

Análisis de la Restricción de Bots de IA en Sitios de Noticias

Esta semana, el periodista de datos Ben Welsh descubrió que poco más de una cuarta parte de los sitios web de noticias que encuestó (294 de 1,167 publicaciones principalmente en inglés y basadas en EE. UU.) están bloqueando Applebot-Extended. En comparación, Welsh encontró que el 53 por ciento de los sitios web de noticias en su muestra bloquean el bot de OpenAI. Google introdujo su propio bot específico de IA, Google-Extended, el pasado septiembre; casi el 43 por ciento de esos sitios lo bloquean, lo que sugiere que Applebot-Extended podría aún no estar en el radar.

Estrategias de Publicación y Colaboraciones con IA

Welsh tiene un proyecto en marcha que monitorea cómo los medios abordan a los principales agentes de IA. “Se ha creado una pequeña división entre los editores de noticias sobre si desean o no bloquear estos bots,” dice. “No tengo la respuesta de por qué cada organización de noticias tomó su decisión. Obviamente, podemos leer sobre muchos de ellos haciendo acuerdos de licencia, donde reciben pago a cambio de permitir la entrada de los bots—quizás eso sea un factor.”

El año pasado, The New York Times informó que Apple estaba intentando cerrar acuerdos de IA con editores. Desde entonces, competidores como OpenAI y Perplexity han anunciado asociaciones con una variedad de medios de comunicación, plataformas sociales y otros sitios web populares. “Muchos de los editores más grandes del mundo están claramente adoptando un enfoque estratégico,” dice Jon Gillham, fundador de Originality AI. “Creo que en algunos casos, hay una estrategia comercial involucrada—como, retener los datos hasta que se establezca un acuerdo de asociación.”

Ejemplos de Bloqueo y Estrategias Comerciales

Hay cierta evidencia que respalda la teoría de Gillham. Por ejemplo, los sitios web de Condé Nast solían bloquear los rastreadores de OpenAI. Después de que la compañía anunciara una asociación con OpenAI la semana pasada, desbloqueó los bots de la compañía. (Condé Nast se negó a hacer comentarios sobre esta historia). Mientras tanto, la portavoz de Buzzfeed, Juliana Clifton, dijo a WIRED que la empresa, que actualmente bloquea Applebot-Extended, pone en su lista de bloqueo todos los bots de raspado web de IA que puede identificar, a menos que su propietario haya entrado en una asociación—típicamente pagada—con la compañía, que también es dueña de Huffington Post.

Desafíos de Mantener Listas de Bloqueo Actualizadas

Dado que robots.txt necesita ser editado manualmente y hay tantos nuevos agentes de IA debutando, puede ser difícil mantener una lista de bloqueo actualizada. “La gente simplemente no sabe qué bloquear,” dice Gavin King, fundador de Dark Visitors. Dark Visitors ofrece un servicio freemium que actualiza automáticamente el robots.txt de un sitio del cliente, y King dice que los editores constituyen una gran parte de sus clientes debido a preocupaciones sobre derechos de autor.

Robots.txt puede parecer un territorio arcano de webmasters—pero dada su gran importancia para los editores digitales en la era de la IA, ahora es el dominio de ejecutivos de medios. WIRED ha descubierto que dos CEOs de importantes compañías de medios deciden directamente qué bots bloquear. Algunos medios han notado explícitamente que bloquean herramientas de raspado de IA debido a que no tienen actualmente asociaciones con sus propietarios. “Estamos bloqueando Applebot-Extended en todas las propiedades de Vox Media, como lo hemos hecho con muchas otras herramientas de raspado de IA cuando no tenemos un acuerdo comercial con la otra parte,” dice Lauren Starke, vicepresidente senior de comunicaciones de Vox Media. “Creemos en proteger el valor de nuestro trabajo publicado.”

Fuente y créditos: www.wired.com

Cats: Business