Análisis de la herramienta de transcripción Whisper
Hace unos meses, mi médico mostró una herramienta de transcripción de IA que utiliza para grabar y resumir sus reuniones con pacientes. En mi caso, el resumen fue adecuado, pero investigadores citados por ABC News han encontrado que eso no siempre es así con Whisper de OpenAI, que impulsa una herramienta que muchos hospitales utilizan; a veces simplemente inventa cosas por completo.
Uso de Whisper en hospitales
Whisper es utilizado por una empresa llamada Nabla para una herramienta de transcripción médica que estima ha transcrito 7 millones de conversaciones médicas, según ABC News. Más de 30,000 clínicos y 40 sistemas de salud lo utilizan, escribe el medio. Nabla es consciente de que Whisper puede tener alucinaciones y está “abordando el problema”.
Estudio sobre las alucinaciones en las transcripciones
Un grupo de investigadores de la Universidad de Cornell, la Universidad de Washington y otras instituciones encontró en un estudio que Whisper alucina en aproximadamente el 1 por ciento de las transcripciones, inventando oraciones enteras con a veces sentimientos violentos o frases sin sentido durante los silencios en las grabaciones. Los investigadores, que recopilaron muestras de audio de AphasiaBank de TalkBank como parte del estudio, notan que el silencio es particularmente común cuando alguien con un trastorno del lenguaje llamado afasia está hablando. Una de las investigadoras, Allison Koenecke de la Universidad de Cornell, publicó ejemplos como el que se presenta a continuación en un hilo sobre el estudio.
Ejemplos de alucinaciones
Los investigadores encontraron que las alucinaciones también incluían condiciones médicas inventadas o frases que podrías esperar de un video de YouTube, como “¡Gracias por ver!” (OpenAI, según informes, solía transcribir más de un millón de horas de videos de YouTube para entrenar GPT-4). El estudio fue presentado en junio en la conferencia FAccT de la Asociación de Maquinaria Computacional en Brasil. No está claro si ha sido revisado por pares.
Un portavoz de OpenAI, Taya Christianson, envió un correo electrónico con una declaración a The Verge: “Tomamos este problema en serio y estamos trabajando continuamente para mejorar, incluyendo la reducción de alucinaciones. Para el uso de Whisper en nuestra plataforma API, nuestras políticas de uso prohíben su uso en ciertos contextos de toma de decisiones de alto riesgo, y nuestra tarjeta de modelo para el uso de código abierto incluye recomendaciones en contra de su uso en dominios de alto riesgo. Agradecemos a los investigadores por compartir sus hallazgos.”
Fuente y créditos: www.theverge.com
Cats: