Reddit bloqueó a Bing por la IA, no por un acuerdo con Google

lifehacker.com4 meses ago4 meses ago08 mins

Reddit explica la eliminación de resultados en motores de búsqueda

Después de que los resultados de Reddit comenzaron a desaparecer de motores de búsqueda distintos a Google la semana pasada, la empresa finalmente ha salido a explicar por qué, restando importancia al problema de búsqueda y afirmando que está cansada de que las empresas de IA entrenen con sus datos de forma gratuita. “Hemos tenido a Microsoft, Anthropic y Perplexity actuando como si todo el contenido de internet fuera gratuito para ellos”, comentó el CEO de Reddit, Steve Huffman, en una entrevista con The Verge. “Lo cual nos ha puesto en una posición de bloquear a aquellos que no han estado dispuestos a aceptar cómo queremos que se utilicen o no nuestros datos”. Huffman acusó a Microsoft de entrenar su IA con datos de Reddit recopilados a través de Bing, y de revender esos datos a través de la API de Bing.

La eliminación de búsquedas de Reddit parece ser, en gran parte, un subproducto de bloquear ese proceso, aunque la empresa tampoco estaba contenta con que el motor de búsqueda de Bing utilizara IA para resumir sus publicaciones sin que los usuarios tuvieran que hacer clic en ellas. Pero, ¿cómo puede la lucha contra la IA afectar la búsqueda? Aunque parecen tecnologías totalmente separadas, tanto la IA como la búsqueda dependen de “rastreador de sitios web”, que recorren Internet recopilando datos que pueden almacenarse, mostrarse o utilizarse en otros lugares. Este tipo de tecnología es necesaria para que los motores de búsqueda funcionen como lo hacen, pero también puede utilizarse para el entrenamiento de IA. Cuando los sitios web actualizan sus archivos para bloquear a los rastreadores, se interrumpen ambos procesos.

Dado que Huffman pasó la mayor parte de su tiempo hablando sobre IA, parece que el núcleo del problema es que Reddit no quiere que las empresas entrenen con los datos de sus usuarios sin tener voz en el asunto, señalando que compañías como Microsoft, Anthropic y Perplexity se han negado a negociar. “Sin estos acuerdos, no tenemos voz ni conocimiento sobre cómo se muestran nuestros datos o para qué se utilizan”, afirmó el CEO, quien indicó que ha sido “un verdadero dolor bloquear a estas empresas”.

Eso no significa que Reddit sea completamente altruista. A principios de este año, la empresa firmó un contrato de licencia de 60 millones de dólares al año que permite a Google entrenar su IA con publicaciones de usuarios, lo que también explicaría por qué las publicaciones de Reddit continúan apareciendo sin problemas en la búsqueda de Google. De manera similar, OpenAI también puede entrenar con publicaciones de Reddit, y su próximo motor SearchGPT podrá vincularse a ellas, aunque no se ha revelado la cantidad específica del acuerdo de Reddit con el creador de ChatGPT.

Más que estar en contra de la IA, Reddit quiere participar en el proceso de toma de decisiones sobre lo que ocurre con sus datos, y también recibir compensación por ello. The Verge señaló que Huffman mencionó un comentario reciente del CEO de IA de Microsoft, Mustafa Suleyman, como un ejemplo del tipo de comportamiento que buscan combatir. En una discusión con Andrew Ross Sorkin de CNBC en el Aspen Ideas Festival, el ejecutivo afirmó que el contenido “que ya está en la web abierta… ha sido ‘software gratuito’, si se quiere”.

Esta es una interpretación creativa de la ley de derechos de autor, pero no es única de Microsoft. A pesar del acuerdo de Google con Reddit, en julio del año pasado, Gizmodo destacó un cambio en la política de privacidad de Google que decía que utiliza “información públicamente disponible” para entrenar sus modelos de IA, sin reconocer que Google no posee en realidad todo lo que se publica en internet.

Aunque no está claro cómo Google define “públicamente disponible”, este nuevo acuerdo de Reddit podría arrojar luz sobre el tema. Por ahora, el entrenamiento de IA podría pasar de ser un libre acceso a un punto donde aquellos que puedan permitirse hacer que las empresas paguen obtendrán lo que les corresponde (asumiendo que beneficiarse de la venta de contenido creado por usuarios antes de que la IA existiera cuenta como merecido a sus ojos). Junto a Reddit, la empresa matriz de The Verge, Vox Media, también ha llegado a un acuerdo con OpenAI, al igual que The Atlantic. En cuanto al resto de nosotros, tendremos que confiar en la regulación, que ha sido lenta en responder a la IA fuera de la UE.

Fuente y créditos: lifehacker.com

Cats: Tech