En abril de 2022, cuando se lanzó Dall-E, un modelo visio-lingüístico de texto a imagen, supuestamente atrajo a más de un millón de usuarios en los primeros tres meses. Esto fue seguido por ChatGPT, en enero de 2023, que aparentemente alcanzó 100 millones de usuarios activos mensuales solo dos meses después de su lanzamiento. Ambos marcan momentos notables en el desarrollo de la IA generativa, lo que a su vez ha dado lugar a una explosión de contenido generado por IA en la web. La mala noticia es que, en 2024, esto significa que también veremos una explosión de información fabricada y sin sentido, así como desinformación y la exacerbación de estereotipos sociales negativos codificados en estos modelos de IA.
La revolución de la IA no fue impulsada por ningún avance teórico reciente—de hecho, gran parte del trabajo fundamental que subyace a las redes neuronales artificiales ha estado presente durante décadas—sino por la “disponibilidad” de conjuntos de datos masivos. Idealmente, un modelo de IA captura un fenómeno dado—ya sea el lenguaje humano, la cognición o el mundo visual—de una manera que representa el fenómeno real lo más fielmente posible.
Por ejemplo, para que un modelo de lenguaje grande (LLM) genere texto similar al humano, es importante que el modelo reciba enormes volúmenes de datos que de alguna manera representen el lenguaje, la interacción y la comunicación humanas. Se cree que cuanto más grande sea el conjunto de datos, mejor captura los asuntos humanos, en toda su belleza, fealdad e incluso crueldad inherentes. Estamos en una era marcada por una obsesión por escalar modelos, conjuntos de datos y GPUs. Los LLM actuales, por ejemplo, han entrado ahora en una era de modelos de aprendizaje automático de trillones de parámetros, lo que significa que requieren conjuntos de datos del tamaño de miles de millones. ¿Dónde podemos encontrarlos? En la web.
Se asume que estos datos obtenidos de la web capturan la “verdad fundamental” de la comunicación e interacción humanas, un proxy a partir del cual se puede modelar el lenguaje. Aunque varios investigadores han demostrado ahora que los conjuntos de datos en línea suelen ser de mala calidad, tienden a exacerbar estereotipos negativos, y contener contenido problemático como insultos raciales y discurso de odio, a menudo dirigido hacia grupos marginados, esto no ha detenido a las grandes empresas de IA de usar tales datos en la carrera por escalar.
Con la IA generativa, este problema está a punto de empeorar mucho. En lugar de representar el mundo social a partir de los datos de entrada de manera objetiva, estos modelos codifican y amplifican los estereotipos sociales. De hecho, un trabajo reciente muestra que los modelos generativos codifican y reproducen actitudes racistas y discriminatorias hacia identidades, culturas y lenguas históricamente marginadas.
Es difícil, si no imposible—incluso con herramientas de detección de última generación—saber con certeza cuánto texto, imagen, audio y video se está generando actualmente y a qué ritmo. Investigadores de la Universidad de Stanford, Hans Hanley y Zakir Durumeric, estiman un aumento del 68 por ciento en el número de artículos sintéticos publicados en Reddit y un aumento del 131 por ciento en artículos de noticias erróneas entre el 1 de enero de 2022 y el 31 de marzo de 2023. Boomy, una empresa generadora de música en línea, afirma haber generado 14,5 millones de canciones (o el 14 por ciento de la música grabada) hasta ahora. En 2021, Nvidia predijo que, para 2030, habrá más datos sintéticos que datos reales en los modelos de IA. Una cosa es cierta: La web está siendo inundada por datos generados sintéticamente.
Lo preocupante es que estas enormes cantidades de salidas de IA generativa se utilizarán, a su vez, como material de entrenamiento para futuros modelos de IA generativa. Como resultado, en 2024, una parte muy significativa del material de entrenamiento para modelos generativos será datos sintéticos producidos a partir de modelos generativos. Pronto, estaremos atrapados en un bucle recursivo donde entrenaremos modelos de IA utilizando solo datos sintéticos producidos por modelos de IA. La mayoría de esto estará contaminado con estereotipos que continuarán amplificando las inequidades históricas y sociales. Desafortunadamente, estos también serán los datos que utilizaremos para entrenar modelos generativos aplicados a sectores de alto riesgo, incluyendo la medicina, la terapia, la educación y el derecho. Aún tenemos que enfrentarnos a las consecuencias desastrosas de esto. Para 2024, la explosión de contenido de IA generativa que ahora encontramos tan fascinante se convertirá en un enorme vertedero tóxico que volverá para “morder”.
Fuente y créditos: www.wired.com
Cats: Ideas