Harvard Lanzará un Masivo Conjunto de Datos de Entrenamiento de IA Gratuito Financidado por OpenAI y Microsoft

Iniciativas de Datos Institucionales y Colaboraciones

Además del gran número de libros, la Iniciativa de Datos Institucionales también está colaborando con la Biblioteca Pública de Boston para escanear millones de artículos de diferentes periódicos que ahora están en el dominio público, y afirma que está abierta a formar colaboraciones similares en el futuro. La forma exacta en que se liberará el conjunto de datos de libros no está definida. La Iniciativa de Datos Institucionales ha solicitado a Google trabajar juntos en la distribución pública, y la empresa ha prometido su apoyo.

Proyectos y Licencias en el Dominio Público

Sin importar cómo se publique el conjunto de datos de IDI, se unirá a una serie de proyectos similares, startups e iniciativas que prometen dar a las empresas acceso a materiales de entrenamiento de IA sustanciales y de alta calidad sin el riesgo de infringir derechos de autor. Empresas como Calliope Networks y ProRata han surgido para emitir licencias y diseñar esquemas de compensación destinados a pagar a los creadores y titulares de derechos por proporcionar datos para el entrenamiento de IA. También hay otros nuevos proyectos de dominio público.

Corpus Común de Pleias

La primavera pasada, la startup francesa de IA Pleias lanzó su propio conjunto de datos de dominio público, Common Corpus, que contiene un estimado de 3 a 4 millones de libros y colecciones periódicas, según el coordinador del proyecto, Pierre-Carl Langlais. Respaldado por el Ministerio de Cultura francés, el Common Corpus ha sido descargado más de 60,000 veces solo este mes en la plataforma de IA de código abierto Hugging Face. La semana pasada, Pleias anunció que está liberando su primer conjunto de modelos de lenguaje grande entrenados en este conjunto de datos, que Langlais le contó a WIRED que constituyen los primeros modelos “nunca entrenados exclusivamente en datos abiertos y conforme a la [UE] Ley de IA.”

Desarrollo de Conjuntos de Datos de Imágenes

También se están llevando a cabo esfuerzos para crear conjuntos de datos de imágenes similares. La startup de IA Spawning lanzó el suyo este verano llamado Source.Plus, que contiene imágenes de dominio público de Wikimedia Commons, así como de varios museos y archivos. Varias importantes instituciones culturales han puesto a disposición del público sus propios archivos como proyectos independientes, como el Museo Metropolitano de Arte.

Ed Newton-Rex, un ex ejecutivo de Stability AI que ahora dirige una organización sin fines de lucro que certifica herramientas de IA entrenadas éticamente, dice que el auge de estos conjuntos de datos muestra que no hay necesidad de robar materiales protegidos por derechos de autor para construir modelos de IA de alto rendimiento y calidad. OpenAI previamente le dijo a los legisladores en el Reino Unido que sería “imposible” crear productos como ChatGPT sin utilizar obras protegidas por derechos de autor. “Grandes conjuntos de datos de dominio público como estos destruyen aún más la ‘defensa de necesidad’ que algunas empresas de IA utilizan para justificar el raspado de trabajos protegidos por derechos de autor para entrenar sus modelos”, dice Newton-Rex.

Sin embargo, aún tiene reservas sobre si IDI y proyectos similares realmente cambiarán el statu quo del entrenamiento. “Estos conjuntos de datos solo tendrán un impacto positivo si se utilizan, probablemente en combinación con la obtención de licencias de otros datos, para reemplazar trabajos protegidos que han sido raspados. Si solo se añaden a la mezcla, una parte de un conjunto de datos que también incluye el trabajo de toda una vida de los creadores del mundo sin licencia, beneficiarán abrumadoramente a las empresas de IA”, dice.

Fuente y créditos: www.wired.com

Cats: Business