Dentro de la carrera de Meta para superar a OpenAI: “Necesitamos aprender a construir frontera y ganar esta carrera”

Demandas de Derechos de Autor Contra Meta

Una demanda importante por derechos de autor contra Meta ha revelado una serie de comunicaciones internas sobre los planes de la compañía para desarrollar sus modelos de inteligencia artificial de código abierto, Llama. Estas comunicaciones incluyen discusiones sobre cómo evitar “cobertura mediática que sugiera que hemos utilizado un conjunto de datos que sabemos que es pirata”. Los mensajes, que formaban parte de una serie de documentos revelados por un tribunal de California, sugieren que Meta utilizó datos protegidos por derechos de autor al entrenar sus sistemas de IA y trabajó para ocultarlo, mientras competía para vencer a rivales como OpenAI y Mistral. Algunas de estas comunicaciones fueron reveladas por primera vez la semana pasada.

Planes para el Desarrollo de IA

En un correo electrónico de octubre de 2023 dirigido al investigador de Meta AI, Hugo Touvron, Ahmad Al-Dahle, vicepresidente de IA generativa de Meta, expresó que el objetivo de la compañía “debe ser GPT-4”, refiriéndose al gran modelo de lenguaje anunciado por OpenAI en marzo de 2023. Al-Dahle agregó que Meta “tenía que aprender a construir una frontera y ganar esta carrera”. Estos planes aparentemente implicaron utilizar el sitio de piratería de libros Library Genesis (LibGen) para entrenar sus sistemas de IA. Un correo electrónico sin fecha del director de producto de Meta, Sony Theakanath, enviado a la vicepresidenta de investigación de IA, Joelle Pineau, consideraba si usar LibGen solamente internamente, para benchmarks incluidos en una publicación de blog, o crear un modelo basado en el sitio.

Uso de LibGen y Medidas de Mitigación

En el correo, Theakanath menciona que “GenAI ha sido aprobado para usar LibGen para Llama3… con una serie de mitigaciones acordadas” después de escalarlo a “MZ” —presumiblemente el CEO de Meta, Mark Zuckerberg. Como se indicó en el correo, Theakanath creía que “LibGen es esencial para alcanzar números SOTA [state-of-the-art]”. Además, se señala que “se sabe que OpenAI y Mistral están utilizando la biblioteca para sus modelos (a través de rumores)”. Meta no ha confirmado si utiliza LibGen.

La demanda de la clase fue presentada por el autor Richard Kadrey, la comediante Sarah Silverman y otros, acusando a Meta de usar contenido protegido por derechos de autor obtenido ilegalmente para entrenar sus modelos de IA, violando las leyes de propiedad intelectual. Meta, como otras compañías de IA, ha argumentado que el uso de material protegido por derechos de autor en los datos de entrenamiento debe considerarse uso justo legal.

Riesgos y Estrategias

El correo también abordó algunos de los “riesgos de política” planteados por el uso de LibGen, incluyendo cómo podrían responder los reguladores a la cobertura mediática que sugiere el uso de contenido pirata por parte de Meta. “Esto podría socavar nuestra posición de negociación con los reguladores sobre estos temas”, se menciona en el correo.

En un intercambio de abril de 2023 entre el investigador de Meta Nikolay Bashlykov y el miembro del equipo de IA David Esiobu, Bashlykov admitió que “no está seguro de que podamos usar las IP de Meta para cargar a través de torrents [de] contenido pirata”. Otros documentos internos muestran las medidas que Meta tomó para oscurecer la información sobre derechos de autor en los datos de entrenamiento de LibGen.

A medida que Meta y OpenAI esperan hacer crecer sus sistemas de IA lo más rápido posible, es probable que las cosas se complican un poco. Aunque un juez desestimó parcialmente la demanda colectiva de Kadrey y Silverman el año pasado, las pruebas aquí descritas podrían fortalecer partes de su caso a medida que avanza en el tribunal.

Fuente y créditos: www.theverge.com

Cats: