Apple, Nvidia y Anthropic Usaron Miles de Videos Robados de YouTube para Entrenar IA

En respuesta a las demandas, los demandados como Meta, OpenAI, y Bloomberg han argumentado que sus acciones constituyen un uso justo. Un caso contra EleutherAI, que originalmente extrajo los libros y los hizo públicos, fue desestimado voluntariamente por los demandantes.

El litigio en los casos restantes se encuentra en las primeras etapas, dejando las preguntas sobre el permiso y el pago sin resolver. El Pile ha sido eliminado desde su sitio de descarga oficial, pero todavía está disponible en servicios de intercambio de archivos.

“Las empresas tecnológicas han actuado sin tener en cuenta las consecuencias”, dijo Amy Keller, abogada de protección al consumidor y socia en la firma DiCello Levitt, que ha presentado demandas en nombre de creativos cuyo trabajo supuestamente fue recopilado por empresas de IA sin su consentimiento.

“La gente está preocupada porque no tuvo una opción en el asunto”, dijo Keller. “Creo que eso es lo realmente problemático.”

Imitando a un loro

Muchos creadores se sienten inseguros sobre el camino a seguir.

Los YouTubers a tiempo completo vigilan el uso no autorizado de su trabajo, presentando regularmente avisos de eliminación, y algunos temen que sea solo cuestión de tiempo antes de que la IA pueda generar contenido similar al que ellos producen, si no es que crear copias directas.

Pakman, el creador de The David Pakman Show, vio el poder de la IA recientemente mientras navegaba en TikTok. Se encontró con un video etiquetado como un clip de Tucker Carlson, pero cuando Pakman lo vio, se quedó atónito. Sonaba como Carlson, pero era, palabra por palabra, lo que Pakman había dicho en su programa de YouTube, incluso en la cadencia. También le alarmó que solo uno de los comentaristas del video pareciera reconocer que era falso: una clonación de voz de Carlson leyendo el guion de Pakman.

“Esto va a ser un problema”, dijo Pakman en un video de YouTube que hizo sobre el falso. “Esto se puede hacer esencialmente con cualquiera.”

Sid Black, cofundador de EleutherAI, escribió en GitHub que creó subtítulos de YouTube utilizando un script. Ese script descarga los subtítulos de la API de YouTube de la misma manera que lo hace el navegador de un espectador de YouTube al ver un video. Según la documentación en GitHub, Black utilizó 495 términos de búsqueda para seleccionar videos, incluyendo “vloggers divertidos”, “Einstein”, “protestante negro”, “Servicios Sociales Protectores”, “infowars”, “chromodinámica cuántica”, “Ben Shapiro”, “Uigures”, “frutariano”, “receta de pastel”, “líneas de Nazca”, y “tierra plana”.

Aunque los términos de servicio de YouTube prohíben acceder a sus videos mediante “medios automatizados”, más de 2,000 usuarios de GitHub han marcado o respaldado el código.

“Hay muchas formas en que YouTube podría evitar que este módulo funcione si es eso lo que les interesa”, escribió el ingeniero de aprendizaje automático Jonas Depoix en una discusión en GitHub, donde publicó el código que Black utilizó para acceder a los subtítulos de YouTube. “Esto no ha sucedido hasta ahora.”

En un correo electrónico a Proof News, Depoix dijo que no ha utilizado el código desde que lo escribió como estudiante universitario para un proyecto hace varios años y se sorprendió de que la gente lo encontrara útil. Se negó a responder preguntas sobre las reglas de YouTube.

El portavoz de Google, Jack Malon, dijo en una respuesta por correo electrónico a una solicitud de comentario que la empresa ha tomado “medidas a lo largo de los años para prevenir la recolección abusiva y no autorizada”. No respondió a preguntas sobre el uso del material por parte de otras empresas como datos de entrenamiento.

Entre los videos utilizados por las empresas de IA hay 146 del canal Einstein Parrot, que tiene casi 150,000 suscriptores. La cuidadora del loro gris africano, Marcia, que no quiso usar su apellido por temor a poner en peligro la seguridad de la famosa ave, dijo que al principio le pareció gracioso enterarse de que los modelos de IA habían ingerido las palabras de un loro que imita.

“¿Quién querría usar la voz de un loro?” dijo Marcia. “Pero luego, sé que habla muy bien. Habla con mi voz. Así que me está imitando, y luego la IA está imitando al loro.”

Una vez que los datos son ingeridos por la IA, no pueden ser desaprendidos. Marcia estaba preocupada por todas las maneras desconocidas en que la información de su loro podría ser utilizada, incluyendo la creación de un loro duplicado digital y, le preocupaba, que hiciera malas palabras.

“Estamos pisando terreno desconocido”, dijo Marcia.

Fuente y créditos: www.wired.com

Cats: Business