El Nuevo Modelo de IA de DeepSeek Provoca Asombro, Admiración y Preguntas Entre los Competidores en EE. UU.

El Verdadero Costo del Desarrollo de DeepSeek

El verdadero precio del desarrollo de los nuevos modelos de DeepSeek sigue siendo desconocido; sin embargo, una cifra mencionada en un único artículo de investigación puede no reflejar el panorama completo de sus costos. “No creo que sean $6 millones, pero incluso si son $60 millones, cambiará las reglas del juego”, dice Umesh Padval, director general de Thomvest Ventures, una empresa que ha invertido en Cohere y otras compañías de IA. “Esto presionará la rentabilidad de las empresas que se centran en la IA para el consumidor.”

Implicaciones para Clientes y Empresas

Poco después de que DeepSeek revelara los detalles de su último modelo, Ghodsi de Databricks señala que los clientes comenzaron a preguntar si podían usarlo así como las técnicas subyacentes de DeepSeek para reducir costos en sus organizaciones. Agrega que un enfoque utilizado por los ingenieros de DeepSeek, conocido como destilación, que consiste en usar la salida de un gran modelo de lenguaje para entrenar otro modelo, es relativamente barato y sencillo. Padval menciona que la existencia de modelos como el de DeepSeek beneficiará a las empresas que buscan gastar menos en IA, aunque muchas puedan tener reservas sobre confiar en un modelo chino para tareas sensibles. Hasta ahora, al menos una prominente firma de IA, Perplexity, ha anunciado públicamente que está utilizando el modelo R1 de DeepSeek, pero ha aclarado que está alojado “completamente independiente de China.”

Opiniones sobre los Modelos de DeepSeek

Amjad Massad, CEO de Replit, una startup que proporciona herramientas de codificación basadas en IA, comentó a WIRED que considera que los últimos modelos de DeepSeek son impresionantes. Aunque aún cree que el modelo Sonnet de Anthropic es mejor en muchas tareas de ingeniería informática, ha encontrado que el R1 es especialmente bueno convirtiendo comandos de texto en código ejecutable. “Estamos explorando su uso, especialmente para el razonamiento de agentes”, añade.

El Avance Tecnológico de DeepSeek

Las últimas dos ofertas de DeepSeek—DeepSeek R1 y DeepSeek R1-Zero—son capaces del mismo tipo de razonamiento simulado que los sistemas más avanzados de OpenAI y Google. Todos trabajan descomponiendo problemas en partes constituyentes para abordarlos de manera más efectiva, un proceso que requiere una cantidad considerable de entrenamiento adicional para asegurar que la IA alcance la respuesta correcta con fiabilidad. Un artículo publicado por investigadores de DeepSeek la semana pasada destaca el enfoque que la compañía utilizó para crear sus modelos R1, que según afirman, rinden en algunos benchmarks de manera similar al modelo de razonamiento innovador de OpenAI conocido como o1. Las tácticas utilizadas por DeepSeek incluyen un método más automatizado para aprender a resolver problemas correctamente, así como una estrategia para transferir habilidades de modelos más grandes a modelos más pequeños.

Uno de los temas más candentes de especulación sobre DeepSeek es el hardware que podría haber utilizado. La cuestión es especialmente notable porque el gobierno de EE. UU. ha introducido una serie de controles de exportación y otras restricciones comerciales en los últimos años, dirigidas a limitar la capacidad de China para adquirir y fabricar chips avanzados necesarios para construir IA de vanguardia. En un artículo de investigación de agosto de 2024, DeepSeek indicó que tiene acceso a un clúster de 10,000 chips Nvidia A100, que quedaron bajo restricciones estadounidenses anunciadas en octubre de 2022. En un artículo separado de junio de ese año, DeepSeek afirmó que un modelo anterior llamado DeepSeek-V2 fue desarrollado utilizando clústeres de chips de computadora Nvidia H800, un componente menos capaz desarrollado por Nvidia para cumplir con los controles de exportación de EE. UU. Una fuente de una empresa de IA que entrena grandes modelos de IA, que pidió permanecer en el anonimato para proteger sus relaciones profesionales, estima que DeepSeek probablemente utilizó alrededor de 50,000 chips Nvidia para construir su tecnología. Nvidia se negó a comentar directamente sobre en cuáles de sus chips pudo haber confiado DeepSeek. “DeepSeek es un excelente avance en IA”, declaró un portavoz de Nvidia, añadiendo que el enfoque de razonamiento de la startup “requiere un número significativo de GPUs de Nvidia y redes de alto rendimiento.”

Sin embargo, independientemente de cómo se construyeron los modelos de DeepSeek, parecen mostrar que un enfoque menos cerrado para el desarrollo de IA está ganando impulso. En diciembre, Clem Delangue, CEO de HuggingFace, una plataforma que alberga modelos de inteligencia artificial, predijo que una empresa china tomaría la delantera en IA debido a la velocidad de innovación que está ocurriendo en modelos de código abierto, que China ha adoptado en gran medida. “Esto fue más rápido de lo que pensaba”, dice.

Fuente y créditos: www.wired.com

Cats: Business