Cómo la startup china de IA DeepSeek creó un modelo que rivaliza con OpenAI

Un Grupo Joven de Genios Deseosos de Probarse

Hoy en día, DeepSeek es una de las únicas empresas líderes en IA en China que no depende de financiamiento de gigantes tecnológicos como Baidu, Alibaba o ByteDance. Según Liang, cuando formó el equipo de investigación de DeepSeek, no buscaba ingenieros experimentados para construir un producto para el consumidor. En cambio, se centró en estudiantes de doctorado de las principales universidades de China, incluyendo la Universidad de Pekín y la Universidad de Tsinghua, que estaban deseosos de demostrar su valía. Muchos habían sido publicados en revistas de alto nivel y habían ganado premios en conferencias académicas internacionales, pero carecían de experiencia en la industria, según la publicación tecnológica china QBitAI. “Nuestros puestos técnicos clave están, en su mayoría, ocupados por personas que se graduaron este año o en los últimos uno o dos años,” dijo Liang a 36Kr en 2023. La estrategia de contratación ayudó a crear una cultura de empresa colaborativa donde las personas eran libres de utilizar abundantes recursos computacionales para emprender proyectos de investigación poco ortodoxos. Este enfoque es marcadamente diferente al de las empresas de internet establecidas en China, donde los equipos a menudo compiten por recursos. (Un ejemplo reciente: ByteDance acusó a un exinterno—un ganador de un prestigioso premio académico, para colmo—de sabotear el trabajo de sus colegas para acaparar más recursos computacionales para su equipo.) Liang afirmó que los estudiantes pueden ser más adecuados para la investigación de alta inversión y bajo rendimiento. “La mayoría de las personas, cuando son jóvenes, pueden entregarse completamente a una misión sin consideraciones utilitarias,” explicó. Su propuesta a los candidatos potenciales es que DeepSeek fue creado para “resolver las preguntas más difíciles del mundo.” El hecho de que estos jóvenes investigadores estén casi completamente educados en China añade a su ímpetu, dicen los expertos. “Esta generación más joven también encarna un sentido de patriotismo, especialmente mientras navegan por las restricciones de EE. UU. y los puntos críticos en tecnologías de hardware y software críticas,” explica Zhang. “Su determinación de superar estas barreras refleja no solo la ambición personal, sino también un compromiso más amplio con el avance de la posición de China como líder mundial en innovación.”

Innovación Nacida de una Crisis

En octubre de 2022, el gobierno de EE. UU. comenzó a implementar controles de exportación que restringieron severamente a las empresas de IA chinas de acceder a chips avanzados como el H100 de Nvidia. Esta medida presentó un problema para DeepSeek. La firma había comenzado con un stock de 10,000 H100, pero necesitaba más para competir con empresas como OpenAI y Meta. “El problema que enfrentamos nunca ha sido el financiamiento, sino el control de exportación sobre chips avanzados,” dijo Liang a 36Kr en una segunda entrevista en 2024. DeepSeek tuvo que idear métodos más eficientes para entrenar sus modelos. “Optimizaron la arquitectura de su modelo utilizando una batería de trucos de ingeniería—esquemas de comunicación personalizados entre chips, reducción del tamaño de campos para ahorrar memoria, y uso innovador del enfoque de mezcla de modelos,” dice Wendy Chang, una ingeniera de software convertida en analista de políticas en el Instituto Mercator para Estudios de China. “Muchos de estos enfoques no son ideas nuevas, pero combinarlos con éxito para producir un modelo avanzado es un logro notable.”

DeepSeek también ha avanzado significativamente en Atención Latente Multicabezal (MLA) y Mezcla de Expertos, dos diseños técnicos que hacen que los modelos de DeepSeek sean más rentables al requerir menos recursos computacionales para su entrenamiento. De hecho, el último modelo de DeepSeek es tan eficiente que requirió una décima parte de la potencia computacional del modelo Llama 3.1 de Meta para su entrenamiento, según la institución de investigación Epoch AI. La disposición de DeepSeek a compartir estas innovaciones con el público le ha valido un considerable aprecio dentro de la comunidad global de investigación en IA. Para muchas empresas chinas de IA, desarrollar modelos de código abierto es la única manera de alcanzar a sus contrapartes occidentales, porque atrae a más usuarios y contribuyentes, lo que a su vez ayuda a que los modelos crezcan. “Ahora han demostrado que se pueden construir modelos avanzados utilizando menos, aunque aún mucho, dinero y que las normas actuales de construcción de modelos dejan mucho espacio para la optimización,” dice Chang. “Estamos seguros de que veremos muchos más intentos en esta dirección en adelante.”

Las noticias podrían representar problemas para los actuales controles de exportación de EE. UU. que se centran en crear cuellos de botella en los recursos computacionales. “Las estimaciones existentes de cuánta potencia computacional de IA tiene China, y lo que pueden lograr con ella, podrían ser alteradas,” dice Chang.

Fuente y créditos: www.wired.com

Cats: Business