newsweek.com

Probamos una nueva herramienta de lectura de labios con IA—Esto es lo que encontramos

newsweek.com2 meses ago2 meses ago08 mins

Symphonic Labs lanza herramienta de lectura de labios con IA

La startup de tecnología de audio Symphonic Labs ha lanzado una herramienta en línea que muestra cómo su inteligencia artificial (IA) funciona en la lectura de labios. Con sede en San Francisco y Canadá, la empresa crea lo que llama herramientas para “comprensión del habla multimodal”, que tienen aplicaciones como las llamadas de voz en entornos ruidosos o susurrar a tu asistente de voz en público.

“¿Quieres saber qué dicen personas como Blake Lively, Taylor Swift, LeBron James y más cuando los micrófonos no están presentes? Acabamos de lanzar readtheirlips.com, que te permite subir un video de cualquier orador e identificar el habla inaudible utilizando nuestro modelo de lectura de labios”, publicó la startup en LinkedIn.

Pruebas con VP Kamala Harris y Gloria Swanson

Cualquiera puede subir un breve clip de video al sitio y este devolverá el texto de lo que calcula que se está diciendo. El video debe mostrar claramente la cara y los labios del hablante. Probamos la IA de lectura de labios de Symphonic Labs con un clip de 26 segundos de Getty Images de la vicepresidenta de EE. UU., Kamala Harris, hablando en un evento por el Día de Conciencia sobre la Violencia Armada en el Kentland Community Center, el 7 de junio de 2024 en Landover, Maryland.

En su mayoría, el software fue bastante preciso, pero cometió algunos errores menores en partes del discurso, como “intentar consolarles” en lugar de “intentar y consolarles”, y errores moderados también: “recordará cada día en la violencia armada” en lugar de “o lo que llamamos violencia armada cotidiana.” En general, mientras la cara estuviera clara, parecía bastante exacto.

También lo probamos con algunos clips de la era del cine mudo para ver cómo funcionaba con imágenes en blanco y negro granuladas. Aunque no podemos confirmar lo que realmente se decía, fue interesante ver lo que estrellas de cine como Gloria Swanson podrían haber estado diciendo. En un clip de noticiero de 23 segundos de 1925, se puede ver a Swanson en un barco en el puerto de Nueva York con la Estatua de la Libertad de fondo. El clip es silencioso y narrado por un presentador de noticias. El software de Symphonic Labs adivina que la actriz se está volviendo hacia su esposo y diciendo algo aproximado a “He estado haciendo esto durante mucho tiempo, lo he estado haciendo durante tanto tiempo”, mientras saluda a la cámara.

Innovaciones tecnológicas y futuro de la IA de lectura de labios

Readtheirlips.com es una vitrina de en lo que Symphonic Labs está trabajando. Su aplicación de software para Mac OS llamada MAMO integra esta tecnología con computadoras personales, permitiendo al usuario emitir comandos de voz “sin hacer un sonido”, comentó Chris Samra, ingeniero de la startup, en X (anteriormente Twitter).

Hablando con Newsweek, Samra dijo que la razón por la que él y su cofundador crearon la startup fue “para construir una interfaz que se sintiera telepática, sin la necesidad de un implante o hardware voluminoso.” “En términos de novedad, nuestro modelo de IA tiene dos propósitos. Por un lado, podría permitir que cualquiera se comunique 3 veces más rápido que escribiendo sin hacer un sonido, y por el otro, tiene la capacidad de analizar el habla a largas distancias o en entornos ruidosos”, agregó Samra.

Explicó que readtheirlips.com es más una demostración técnica y “no es nuestro objetivo principal a largo plazo”, aunque “es asombroso ver a las personas intentar decodificar videos inaudibles del pasado que de otro modo no podrían haber sido decodificados sin nuestro modelo.” “Realmente creo que las grandes oportunidades están en permitir que el consumidor en masa use interfaces conversacionales con mucho menos fricción, y en la accesibilidad para personas con disfonía, RSI y aquellas que tienen dificultades auditivas,” afirmó Samra.

Una nueva actualización de este software ahora permite la adición de contexto personal y vocabulario, lo que significa que el usuario puede entrenarlo mejor para trabajar con su voz y otras interacciones. “Puedes dictar en entornos públicos y ruidosos y te transcribirá al leer tus labios. No se requiere vocalización, hardware adicional o micrófono portátil,” añadió Samra.

Esto podría resultar útil para muchos. Una encuesta de PwC sobre cómo los consumidores de EE. UU. interactúan con asistentes de voz encontró que la mayoría de las personas se siente incómoda usándolo en público. “A pesar de ser accesibles en todas partes, tres de cada cuatro consumidores (74 por ciento) utilizan sus asistentes de voz móviles en casa. La mayoría de los participantes de grupos focales se apresuraron a decir que prefieren privacidad al hablar con su asistente de voz y que usarlo en público ‘simplemente parece raro’,” señala el informe.

Fuente y créditos: www.newsweek.com

Cats: