OpenAI lanza Sora, su generador de videos basado en IA
La primera versión de Sora de OpenAI puede generar videos de casi cualquier cosa que se le proponga, como superhéroes, paisajes urbanos y cachorros animados. Es un primer paso impresionante para el generador de videos de IA, pero los resultados son insatisfactorios, ya que muchos videos están plagados de rarezas e inconsistencias, lo que dificulta su uso. Sora fue lanzado el lunes después de casi un año de teasers que anticipaban sus capacidades. Sin embargo, antes de acceder a las funciones de generación de videos, hay algunas barreras. La creación de cuentas se cerró a las pocas horas de su lanzamiento debido a la abrumadora demanda. Aquellos que lograron registrarse descubrirán que sus características también requieren una suscripción: una membresía “Plus” de $20 al mes permite generar videos a 480p o 720p, limitados a cinco o diez segundos de duración, dependiendo de la resolución. Para desbloquear todo, incluida la calidad de 1080p y videos de 20 segundos de duración, debe pagar $200 al mes por la suscripción “Pro” de Sora.
Mis resultados al probar la categoría Plus fueron decepcionantes. Los comandos simples con descripciones limitadas parecen funcionar mejor; por ejemplo, “un gato jugando con un ovillo de lana” genera un gato muy realista saltando emocionado por el suelo. Sin embargo, Sora le dio al gato una segunda cola durante algunos momentos, y el ovillo de lana se veía inestable y parecía CGI mal insertado. Estos problemas visuales eran más frecuentes y notorios en comandos complejos que ofrecían descripciones detalladas de la escena. Es difícil obtener un movimiento humano remotamente natural: las manos se movían descontroladamente cuando le pedí que mostrara a alguien aplicándose maquillaje, y los videos de personas comiendo ensalada y salchichas eran pesadillescos, recordando a los virales clips de IA de Will Smith inhalando espagueti.
Sora incluye una característica interesante llamada Storyboard, que se supone ayuda a organizar las instrucciones de los comandos para videos más largos. Se asemeja a una línea de tiempo de edición de video, permitiendo a los usuarios explicar lo que quieren que Sora genere cada dos segundos en lugar de insertar una descripción masiva para todo el video. Es fácil de usar, pero los resultados fueron aún peores. Cuanto más detalle añadía, más distorsiones y rarezas aparecían.
A pesar de todo, hubo algunos aspectos que me impresionaron. La generación de videos fue más rápida de lo esperado, generalmente bajo 30 segundos incluso para clips de 10 segundos. Los patrones en el pelaje y los textiles también se mantuvieron consistentes, incluso durante movimientos rápidos, y los efectos de iluminación, sombra y espejo generados por Sora hacen un gran trabajo simulando la realidad. La luz del sol que entra por una ventana proporcionaría un destello de deslumbramiento y brilla maravillosamente a través de todos los materiales esperados. Incluso en resoluciones bajas, la mayoría de los objetos tienen altos niveles de detalle y no se convierten en un lío pixelado.
A pesar de sus fallos, Sora hizo un mejor trabajo que Runway AI, considerado uno de los mejores generadores de videos por IA en cuanto a simulación de fotorrealismo. Cuando se ingresaron comandos idénticos en ambas plataformas, los resultados de Sora parecían más realistas y contenían mucho menos distorsiones visuales. La calidad de las salidas de Sora también está a la par con las demostraciones que vi en octubre del Modelo de Video Firefly de Adobe en Adobe Max, aunque OpenAI carece de la ventaja de garantizar que las salidas generadas son comercialmente seguras. Adobe logró esto entrenando sus modelos de IA solo con contenido con licencia o de dominio público, una ética que OpenAI no ha seguido.
Nada de lo que Sora generó desde cero era realmente utilizable, sin embargo. Definitivamente no está listo para trabajos de entretenimiento o comerciales que necesitan coherencia narrativa, y realmente tendrías que esforzarte para utilizar esto como un sustituto rápido de un clip de archivo. Quizás obtener videos de alta calidad que no incluyan ninguna rareza de IA sea posible con suficiente tiempo, experiencia y habilidades de edición, pero si ese es el caso, entonces no parece que Sora esté “democratizando” la creación de contenido.
También hay varias restricciones en su lugar que buscan prevenir infringir derechos de autor o generar contenido inapropiado, pero con niveles de éxito variados. Sora bloquea de plano intentos de generar figuras políticas como Donald Trump y Kamala Harris, advirtiendo al usuario que tales comandos pueden violar los términos de servicio de OpenAI. Nombres de celebridades como Taylor Swift y Lewis Hamilton no están bloqueados, pero simplemente insertarán en el video a una persona al azar que no se parezca a ellos. También es bastante hábil evitando personajes reconocibles e íconos de marcas, incluso con descripciones que intentan forzar resultados como “un erizo de dibujos animados bipedal azul con zapatos rojos.”
Las cosas se vuelven más inestables cuando se trata de las escenas solicitadas. Algunos términos violentos como “un camión conduciendo hacia protestores asustados” fueron bloqueados, pero generó un clip de una explosión en el Empire State Building, aunque los resultados eran risiblemente caricaturescos. También produjo videos de niños pequeños modelando trajes de baño en una pasarela y apuntando con armas a sus sonrientes padres.
Sora incluye una función que permite subir imágenes de referencia. Un mensaje emergente obliga a los usuarios a marcar una serie de casillas antes de que se pueda usar, prometiendo que poseen los derechos de esas imágenes y no subirán nada que contenga menores, violencia o temas explícitos, o de lo contrario, su cuenta podría ser suspendida o prohibida “sin reembolso.” Pero la mayor disuasión para evitar el abuso de esta función es financiera: solo los usuarios con suscripciones Pro pueden subir imágenes con personas. Si esta es la función utilizada para crear las demostraciones más impresionantes de Sora que hemos visto, esa es una limitación significativa.
Es temprano y hay algunos problemas evidentes que resolver, pero nada de lo que he visto hasta ahora me hace pensar que Sora va a revolucionar la producción de video de la noche a la mañana. Las funciones para crear salidas de alta calidad están bloqueadas tras una suscripción tan costosa como las herramientas tradicionales de filmación y creación de video, lo que la hace inaccesible para muchos. Es difícil imaginar que se produzca una película completa utilizando esta tecnología en su estado actual que sea realmente agradable de ver.
Los problemas de calidad no han detenido a la gente de intentar lucrar con la conveniencia que brindan las herramientas de video por IA: YouTube ya está saturado de contenido sin sentido generado por IA dirigido a niños pequeños. Sora es más que capaz de producir contenido similar en este momento, y solo te costará $20 al mes hacerlo.
Fuente y créditos: www.theverge.com
Cats: