Investigación sobre el uso de Whisper de OpenAI
El sábado, una investigación de la Associated Press reveló que la herramienta de transcripción Whisper de OpenAI genera texto fabricado en entornos médicos y empresariales, a pesar de las advertencias en contra de su uso. La AP entrevistó a más de 12 ingenieros de software, desarrolladores e investigadores que encontraron que el modelo inventa regularmente texto que los hablantes nunca dijeron, un fenómeno a menudo llamado “confabulación” o “alucinación” en el campo de la inteligencia artificial.
Alertas sobre la precisión de Whisper
Al momento de su lanzamiento en 2022, OpenAI afirmó que Whisper alcanzaba una “robustez a nivel humano” en la precisión de transcripción de audio. Sin embargo, un investigador de la Universidad de Michigan informó a la AP que Whisper generó texto falso en el 80 por ciento de las transcripciones de reuniones públicas examinadas. Otro desarrollador, mencionado sin nombre en el informe de la AP, afirmó haber encontrado contenido inventado en casi el total de sus 26,000 transcripciones de prueba.
Peligros en el sector salud
Las fabricaciones representan riesgos particulares en entornos de atención médica. A pesar de las advertencias de OpenAI sobre el uso de Whisper en “dominios de alto riesgo”, más de 30,000 trabajadores médicos utilizan herramientas basadas en Whisper para transcribir visitas de pacientes, según el informe de la AP. La Clínica Mankato en Minnesota y el Hospital Infantil de Los Ángeles están entre los 40 sistemas de salud que utilizan un servicio de copiloto de inteligencia artificial impulsado por Whisper, desarrollado por la empresa tecnológica médica Nabla, que ha sido afinado en terminología médica.
Nabla reconoce que Whisper puede confabular, pero también reportedly elimina las grabaciones de audio originales “por razones de seguridad de datos”. Esto podría causar problemas adicionales, ya que los médicos no pueden verificar la precisión contra el material fuente. Y los pacientes sordos pueden verse gravemente afectados por transcripciones erróneas, ya que no tendrían forma de saber si el audio de la transcripción médica es preciso o no.
Problemas más allá del sector salud
Los problemas potenciales con Whisper se extienden más allá del cuidado de la salud. Investigadores de la Universidad de Cornell y de la Universidad de Virginia estudiaron miles de muestras de audio y encontraron que Whisper añadía contenido violento inexistente y comentarios raciales a discursos neutros. Descubrieron que el 1 por ciento de las muestras incluía “frases o oraciones completas alucinadas que no existieron en ninguna forma en el audio subyacente” y que el 38 por ciento de estas incluía “daños explícitos como perpetuar la violencia, crear asociaciones inexactas o implicar una falsa autoridad.”
En un caso del estudio citado por la AP, cuando un hablante describió “dos chicas más y una dama”, Whisper añadió texto ficticio especificando que “eran negras”. En otro caso, el audio decía: “Él, el niño, iba a, no estoy seguro exactamente, llevar el paraguas.” Whisper lo transcribió como: “Él tomó un gran trozo de una cruz, un pequeño trozo… Estoy seguro de que no tenía un cuchillo de terror, así que mató a varias personas.”
Respuesta de OpenAI y conclusiones
Un portavoz de OpenAI dijo a la AP que la empresa aprecia los hallazgos de los investigadores y que estudia activamente cómo reducir las fabricaciones e incorpora comentarios en las actualizaciones del modelo.
La clave para la inadecuación de Whisper en dominios de alto riesgo proviene de su propensión a confabular, o plausiblemente inventar, resultados inexactos. El informe de la AP indica: “Los investigadores no están seguros de por qué Whisper y herramientas similares alucinan”, pero eso no es correcto. Sabemos exactamente por qué los modelos de IA basados en Transformadores como Whisper se comportan de esta manera. Whisper se basa en una tecnología diseñada para predecir el siguiente token más probable (fragmento de datos) que debería aparecer después de una secuencia de tokens proporcionada por un usuario. En el caso de ChatGPT, los tokens de entrada vienen en forma de un aviso de texto. En el caso de Whisper, la entrada es datos de audio tokenizados.
Fuente y créditos: www.wired.com
Cats: Business