Interfaz de voz empática de Hume AI
Hoy se lanzó una nueva “interfaz de voz empática” por Hume AI, una startup con sede en Nueva York, que permite agregar una gama de voces emocionalmente expresivas, así como un oído emocionalmente sintonizado, a grandes modelos de lenguaje de Anthropic, Google, Meta, Mistral y OpenAI; anticipando una era en la que los asistentes de IA pueden volverse más efusivos con nosotros. “Nos especializamos en construir personalidades empáticas que hablan de manera similar a como lo harían las personas, en lugar de los estereotipos de asistentes de IA”, dice Alan Cowen, cofundador de Hume AI y psicólogo que ha coescrito varios artículos de investigación sobre IA y emoción. Anteriormente, trabajó en tecnologías emocionales en Google y Facebook.
Pruebas de la tecnología de voz EVI 2
WIRED probó la última tecnología de voz de Hume, llamada EVI 2, y encontró que su salida es similar a la desarrollada por OpenAI para ChatGPT. (Cuando OpenAI le dio a ChatGPT una voz coqueta en mayo, el CEO de la compañía, Sam Altman, promocionó la interfaz como si se sintiera “como IA de las películas”. Más tarde, una verdadera estrella de cine, Scarlett Johansson, afirmó que OpenAI había copiado su voz). Al igual que ChatGPT, Hume es mucho más expresivo emocionalmente que la mayoría de las interfaces de voz convencionales. Si le dices que tu mascota ha muerto, por ejemplo, adoptará un tono adecuado, sombrío y comprensivo. (Además, al igual que con ChatGPT, puedes interrumpir a Hume en medio de una respuesta y pausará para adaptarse con una nueva respuesta).
Medición de emociones en la interacción
OpenAI no ha indicado cuánto mide su interfaz de voz las emociones de los usuarios, pero la de Hume está explícitamente diseñada para eso. Durante las interacciones, la interfaz de desarrollo de Hume mostrará valores que indican una medición de cosas como “determinación”, “ansiedad” y “felicidad” en la voz de los usuarios. Si le hablas a Hume con un tono triste, también lo detectará, algo que ChatGPT parece no hacer. Hume también facilita el despliegue de una voz con emociones específicas al agregar un prompt en su UI. A continuación, cuando le pedí que fuera “sexy y coqueta”:
Mensaje de Hume AI “sexy y coqueta”
Y cuando se le pidió que fuera “triste y moroso”:
Mensaje de Hume AI “triste y moroso”
Y aquí está el mensaje particularmente grosero cuando se le pidió que fuera “enojado y grosero”:
Mensaje de Hume AI “enojado y grosero”
Potencial y desafíos de la tecnología de voz
La tecnología no siempre parecía tan pulida y fluida como la de OpenAI, y en ocasiones se comportaba de maneras extrañas. Por ejemplo, en un momento la voz aceleró repentinamente y soltó palabrería incomprensible. Pero si la voz puede ser refinada y hecha más confiable, tiene el potencial de ayudar a que las interfaces de voz similares a las humanas sean más comunes y variadas. La idea de reconocer, medir y simular la emoción humana en sistemas tecnológicos se remonta a décadas y se estudia en un campo conocido como “computación afectiva”, un término introducido por Rosalind Picard, profesora en el MIT Media Lab, en la década de 1990. Albert Salah, profesor en la Universidad de Utrecht en los Países Bajos, que estudia la computación afectiva, está impresionado con la tecnología de Hume AI y la demostró recientemente a sus estudiantes. “Lo que parece hacer EVI es asignar valores de valencia emocional y excitación [al usuario], y luego modular el habla del agente en consecuencia”, dice. “Es un giro muy interesante en los LLMs.”
Fuente y créditos: www.wired.com
Cats: Business,Business / Artificial Intelligence,AI Lab