Exploración de los Medios Generados por IA
Esta publicación es parte de la serie de Lifehacker “Exponiendo la IA”. Estamos explorando seis tipos diferentes de medios generados por IA, destacando las peculiaridades, subproductos y características comunes que te ayudan a diferenciar entre contenido creado por humanos y contenido artificial. En los últimos años, las tecnologías de IA han hecho posible clonar la voz de otra persona y hacer que esa “persona” diga cualquier cosa que desees. No necesitas ser un experto para hacerlo: una rápida búsqueda en Google y puedes hacer que desde el presidente Biden hasta Bob Esponja hablen tus palabras. Es fascinante, gracioso y aterrador.
Usos Positivos de la Tecnología de Voz IA
La tecnología de voz de IA puede utilizarse para el bien: la función de Voz Personal de Apple, por ejemplo, te permite crear una versión de tu propia voz que puedes usar para texto a voz, diseñada para personas que están perdiendo la capacidad de hablar por sí mismas. Es asombroso que tengamos la capacidad de preservar las voces de las personas, de modo que, en lugar de usar una voz TTS genérica, sus palabras realmente suenen como las suyas.
Funcionamiento de los Generadores de Voz IA
Como otros modelos de IA, como los modelos de texto e imagen, los generadores de voz IA se basan en modelos entrenados con conjuntos de datos masivos. En este caso, los modelos están entrenados con muestras de otras personas hablando. El modelo Whisper de OpenAI, por ejemplo, fue entrenado con 680,000 horas de datos. Así es como aprende no solo a replicar las palabras en sí, sino también otros elementos del habla, como el tono y el ritmo.
Identificación de Voces Artificiales
Sin embargo, aún hay algunos detalles notables y errores que la mayoría de las voces IA tienden a tener, lo que hace que sea crucial identificarlas para determinar si esa grabación es real o falsa. Escucha pronunciaciones extrañas y ritmos inusuales. Un modelo de IA podría pronunciar una palabra incorrectamente de vez en cuando, de una manera que la mayoría de las personas no lo haría. Presta atención a errores como “collages,” que pueden variar en su pronunciación. También, escucha cómo el ritmo puede verse afectado. A veces, la IA toma pausas inusuales entre palabras o apresura otras de manera poco natural.
Las voces de IA tienden a carecer de emoción y variación. Aunque estos modelos pueden replicar el sonido de la voz de alguien con precisión, a menudo no logran capturar los matices emocionales y rítmicos del habla humana. Esto puede hacer que las grabaciones suenen planas, a pesar de que algunos avances están siendo realizados en la expresión vocal de la IA.
Como resultado, anotar si un políticamente influyente dice algo ridículo o provocativo también es esencial. La mayoría de las veces, las grabaciones generadas por IA de figuras públicas se presentan de manera que puedan ser malinterpretadas, provocando desinformación.
Herramientas para Detectar Voces IA
Existen herramientas que se publicitan como “detectores de voz IA,” capaces de identificar si una grabación de audio fue generada mediante aprendizaje automático o no. Sin embargo, es importante considerar las limitaciones de estas herramientas, ya que muchas dependen de datos en los que han sido entrenadas y pueden fallar con grabaciones de audio de baja calidad o ruido de fondo excesivo. Aunque algunas herramientas han proporcionado resultados efectivos, aún están en desarrollo y podrían no ser infalibles.
Fuente y créditos: lifehacker.com
Cats: Tech