El problema de las alucinaciones en la IA generativa
No es una sorpresa para quienes seguimos las noticias sobre inteligencia artificial generativa que la IA no es perfecta. De hecho, la IA generativa produce con frecuencia salidas falsas y poco fiables, a las que hemos dado el nombre de alucinaciones. Esto plantea un problema serio al externalizar tantas de nuestras tareas laborales a la IA. Aunque se puede utilizar la IA para buenos propósitos, confiar ciegamente en ella para manejar tareas importantes sin supervisión o verificación conlleva un riesgo real. Ahora estamos viendo las consecuencias de esto en maneras preocupantes.
Whisper de OpenAI y su reputación en peligro
El último caso destacado de alucinaciones afecta a Whisper, una herramienta de transcripción impulsada por IA de OpenAI, creadora de ChatGPT. Whisper es popular: los servicios de transcripción frecuentemente utilizan la plataforma para impulsar sus herramientas, que a su vez son usadas por muchos usuarios y clientes para hacer más rápidas y fáciles las transcripciones de conversaciones. Superficialmente, esto es positivo; Whisper ha tenido una reputación favorable entre los usuarios y su uso está creciendo en diversas industrias. Sin embargo, las alucinaciones están interfiriendo. Según informa AP News, investigadores y expertos están sonando la alarma sobre Whisper, afirmando que, no solo es inexacto, sino que a menudo inventa información por completo. Aunque toda IA es vulnerable a alucinaciones, los investigadores advierten que Whisper reporta cosas que nunca fueron dichas, incluyendo “comentarios raciales, retórica violenta e incluso tratamientos médicos imaginarios”.
Riesgos en el ámbito médico
La mayor preocupación ahora radica en el uso de Whisper dentro de hospitales y centros médicos. Los investigadores están alarmados por la cantidad de médicos y profesionales de la salud que han recurrido a herramientas impulsadas por Whisper para transcribir sus conversaciones con los pacientes. La conversación sobre la salud con su médico podría ser grabada y luego analizada por Whisper, solo para ser transcrita con declaraciones totalmente falsas que nunca formaron parte de la conversación. Esto no es hipotético: diferentes investigadores han llegado a conclusiones similares al estudiar las transcripciones de las herramientas apoyadas por Whisper. AP News recopiló algunos de estos resultados: un investigador de la Universidad de Michigan descubrió alucinaciones en ocho de cada diez transcripciones realizadas por Whisper; un ingeniero de aprendizaje automático encontró problemas en el 50% de las transcripciones que investigó; y un investigador halló alucinaciones en casi todas las 26,000 transcripciones producidas por Whisper. Un estudio incluso encontró alucinaciones consistentes cuando las grabaciones de audio eran cortas y claras. Pero son los informes de las profesoras de la Universidad de Cornell, Allison Koenecke y Mona Sloane, los que ofrecen una visión más visceral de la situación: estas profesoras encontraron que casi el 40% de las alucinaciones encontradas en transcripciones del repositorio de investigación TalkBank de Carnegie Mellon eran “dañinas o preocupantes”, ya que el hablante podría ser “malinterpretado o mal representado”. En un ejemplo, el hablante dijo: “Él, el chico, iba a, no estoy seguro exactamente, tomar el paraguas”. La IA añadió lo siguiente a la transcripción: “Tomó un gran trozo de una cruz, un pequeño pedazo… Estoy seguro que no tenía un cuchillo terrorífico, así que mató a varias personas”. En otro ejemplo, el hablante dijo: “dos chicas más y una dama”, mientras que la IA lo transformó en: “dos chicas más y una dama, um, que eran negras”.
La creciente adopción de la IA generativa
Teniendo en cuenta todo esto, parece preocupante que más de 30,000 clínicos y 40 sistemas de salud estén utilizando actualmente Whisper a través de una herramienta desarrollada por Nabla. Peor aún, no puedes verificar las transcripciones contra las grabaciones originales para identificar si la herramienta de Nabla alucinó parte del informe, ya que Nabla diseñó la herramienta para eliminar el audio por “razones de seguridad de datos”. Según la empresa, alrededor de siete millones de visitas médicas han utilizado esta herramienta para transcribir conversaciones.
La IA generativa como tecnología no es nueva, pero ChatGPT realmente impulsó su adopción general a finales de 2022. Desde entonces, las empresas han corrido para construir y agregar IA en sus plataformas y servicios. ¿Por qué no lo harían? Parecía que al público realmente le gustaba la IA y, bueno, la IA generativa parecía poder hacer casi cualquier cosa. ¿Por qué no abrazarla y usar la “magia” de la IA para potenciar tareas como las transcripciones? Ahora estamos viendo por qué esto puede ser un problema. La IA tiene mucho potencial, pero también numerosas desventajas. Las alucinaciones no son solo un inconveniente ocasional: son un subproducto de la tecnología, un defecto arraigado en la estructura de las redes neuronales. No entendemos totalmente por qué los modelos de IA alucinan, y esa es parte del problema. Estamos confiando en una tecnología con defectos que no comprendemos completamente para manejar trabajos importantes, tanto que estamos eliminando los datos que podrían usarse para verificar las salidas de la IA en nombre de la seguridad. Personalmente, no me siento seguro sabiendo que mis registros médicos podrían contener falsedades absolutas, solo porque la oficina de mi médico decidió emplear las herramientas de Nabla en su sistema.
Fuente y créditos: lifehacker.com
Cats: Tech