Cómo DeepSeek de China puede ser tan bueno como los rivales de IA de EE. UU. a una fracción del costo | Noticias de Ciencia, Clima y Tecnología - El Mundo es Noticias | Últimas Noticias de Latinoamérica y el Mundo: Actualidad, Política y Economía

DeepSeek y su Revolución en la IA

Según las comparaciones limitadas realizadas hasta ahora, los modelos de IA de DeepSeek parecen ser más rápidos, más pequeños y mucho más económicos que las mejores ofertas de los supuestos titanes de la IA como OpenAI, Anthropic y Google. Y aquí está lo sorprendente: la oferta china parece ser tan buena como la de sus competidores. ¿Cómo lo han logrado?

Innovaciones en la Arquitectura de Modelos

En primer lugar, parece que los ingenieros de DeepSeek han pensado en lo que una IA necesita hacer, en lugar de lo que podría hacer. No necesita calcular cada posible respuesta a una pregunta, solo la mejor, por ejemplo, con dos decimales en lugar de 20. Sus modelos siguen siendo programas informáticos masivos; DeepSeek-V3 tiene 671 mil millones de variables. En comparación, ChatGPT-4 es un colosal 1.76 billones.

Hacer más con menos parece deberse a la arquitectura del modelo, que utiliza una técnica llamada “mezcla de expertos”. Mientras que el último modelo de OpenAI, GPT-4.0, intenta ser una combinación de Einstein, Shakespeare y Picasso, el de DeepSeek se asemeja más a una universidad dividida en departamentos de expertos. Esto permite que la IA decida qué tipo de consulta se le está haciendo y luego la envíe a una parte específica de su cerebro digital para ser tratada.

Impacto en el Mercado y el Futuro de la IA

Esto permite que otras partes permanezcan apagadas, ahorrando tiempo, energía y, lo más importante, la necesidad de potencia de cálculo. Y es el rendimiento equivalente con significativamente menos potencia de cálculo lo que ha sorprendido a los grandes desarrolladores de IA y a los mercados financieros. Los modelos de IA de última generación se habían desarrollado utilizando unidades de procesamiento gráfico (GPU) cada vez más potentes fabricadas por compañías como Nvidia en los EE. UU.

La única forma de mejorarlos, según la lógica del mercado, era con más “cómputo”. En parte para mantenerse por delante de China en la carrera armamentista de IA, los EE. UU. restringieron la venta de las GPU más potentes a China. Lo que los ingenieros de DeepSeek han demostrado es lo que hacen los ingenieros cuando se les presenta un problema: encuentran una solución alternativa.

Aprendiendo de lo que han hecho OpenAI y otros, rediseñaron un modelo desde cero para que pudiera funcionar en GPU diseñadas para videojuegos en lugar de superinteligencia. Además, su modelo es de código abierto, lo que significa que será más fácil para los desarrolladores incorporarlo en sus productos. Ser mucho más eficiente y de código abierto hace que el enfoque de DeepSeek parezca una oferta mucho más atractiva para aplicaciones de IA cotidianas. El resultado, por supuesto, ha sido una pérdida de casi $600 mil millones para Nvidia de la noche a la mañana. Sin embargo, sobrevivirá a su repentino giro en la fortuna.

El Futuro de las Firmas de IA

Los modelos tipo LLM (modelo de lenguaje grande) pioneros por OpenAI y ahora mejorados por DeepSeek no son el fin de la IA. La “inteligencia general” de una IA todavía está lejos, y es probable que se necesiten muchas computadoras de alta gama para llegar allí. El destino de empresas como OpenAI es menos certero. Su modelo supuestamente revolucionario, GPT-5, que requiere cantidades sorprendentes de poder de cálculo para funcionar, aún no ha salido. Ahora el juego parece haber cambiado a su alrededor y muchos se preguntan claramente qué retorno tendrán sobre su inversión en IA.

Fuente y créditos: news.sky.com

Cats: