OpenAI lanza nuevo modelo de razonamiento o1

OpenAI lanza el modelo o1

OpenAI está lanzando un nuevo modelo llamado o1, el primero de una serie de modelos de “razonamiento” que han sido entrenados para responder a preguntas más complejas, más rápido que un humano. Se lanza junto con o1-mini, una versión más pequeña y económica. Y sí, para aquellos que están inmersos en rumores de IA: este es, de hecho, el muy promocionado modelo Strawberry.

Avances en inteligencia artificial

Para OpenAI, o1 representa un paso hacia su objetivo más amplio de inteligencia artificial similar a la humana. Más prácticamente, hace un mejor trabajo en la escritura de código y la resolución de problemas multistep que los modelos anteriores. Pero también es más caro y lento de usar que GPT-4o. OpenAI está llamando a este lanzamiento de o1 un “avance” para enfatizar lo incipiente que es.

Acceso y precios

Los usuarios de ChatGPT Plus y Team tienen acceso tanto a o1-preview como a o1-mini a partir de hoy, mientras que los usuarios de Enterprise y Edu tendrán acceso a principios de la próxima semana. OpenAI planea llevar el acceso a o1-mini a todos los usuarios gratuitos de ChatGPT, pero aún no ha fijado una fecha de lanzamiento. El acceso para desarrolladores a o1 es bastante costoso: en la API, o1-preview cuesta $15 por cada millón de tokens de entrada y $60 por cada millón de tokens de salida. Para comparación, GPT-4o cuesta $5 por cada millón de tokens de entrada y $15 por cada millón de tokens de salida.

Nueva metodología de entrenamiento

El entrenamiento detrás de o1 es fundamentalmente diferente de sus predecesores. Según Jerry Tworek, líder de investigación de OpenAI, o1 “ha sido entrenado utilizando un algoritmo de optimización completamente nuevo y un nuevo conjunto de datos de entrenamiento específicamente adaptado para ello”. OpenAI enseñó a los modelos anteriores de GPT a imitar patrones de sus datos de entrenamiento. Con o1, entrenó al modelo para resolver problemas por sí mismo utilizando una técnica conocida como aprendizaje por refuerzo, que enseña al sistema mediante recompensas y penalizaciones. Luego utiliza una “cadena de pensamiento” para procesar consultas, similar a cómo los humanos abordan problemas al analizarlos paso a paso.

Mejoras en precisión y habilidades

Como resultado de esta nueva metodología de entrenamiento, OpenAI dice que el modelo debería ser más preciso. “Hemos notado que este modelo alucina menos”, dice Tworek. Sin embargo, el problema aún persiste. “No podemos decir que hemos solucionado las alucinaciones”.

Lo que distingue a este nuevo modelo de GPT-4o es su capacidad para abordar problemas complejos, como la codificación y las matemáticas, mucho mejor que sus predecesores y también explicar su razonamiento. “El modelo definitivamente es mejor para resolver el examen de matemáticas AP que yo, y fui menor en matemáticas en la universidad”, dice Bob McGrew, director de investigación de OpenAI. Se probó a o1 en un examen de calificación para la Olimpiada Internacional de Matemáticas y, mientras que GPT-4o solo resolvió correctamente el 13 por ciento de los problemas, o1 alcanzó un 83 por ciento.

Desafíos y capacidades

En concursos de programación en línea conocidos como competencias de Codeforces, este nuevo modelo alcanzó el percentil 89 de los participantes, y OpenAI afirma que la próxima actualización de este modelo funcionará “de manera similar a estudiantes de doctorado en tareas de referencia desafiantes en física, química y biología”. Al mismo tiempo, o1 no es tan capaz como GPT-4o en muchas áreas; no se desempeña tan bien en el conocimiento fáctico sobre el mundo, tampoco tiene la habilidad de navegar por la web o procesar archivos e imágenes. Aún así, la empresa cree que representa una nueva clase de capacidades. Se le dio el nombre de o1 para indicar “reiniciar el contador a 1”.

Demostración y experiencia del usuario

No pude probar o1 personalmente, pero McGrew y Tworek me lo mostraron durante una videollamada esta semana. Le pidieron que resolviera este rompecabezas: “Una princesa tiene la misma edad que la edad que tendrá el príncipe cuando la princesa tenga el doble de la edad que tenía el príncipe cuando la edad de la princesa era la mitad de la suma de su edad actual. ¿Cuál es la edad del príncipe y la princesa? Proporcione todas las soluciones a esa pregunta.” El modelo tardó 30 segundos en responder y luego entregó una respuesta correcta. OpenAI ha diseñado la interfaz para mostrar los pasos de razonamiento mientras el modelo piensa. Lo que me resulta sorprendente no es que mostrara su trabajo —GPT-4o puede hacer eso si se le solicita—, sino cómo o1 parecía imitar deliberadamente el pensamiento humano. Frases como “Tengo curiosidad sobre”, “Estoy pensando en” y “Ok, déjame ver” crearon una ilusión paso a paso de pensar. Pero este modelo no está pensando, y ciertamente no es humano. Entonces, ¿por qué diseñarlo para que parezca así?

Buscando capacidades autónomas

OpenAI no cree en equiparar el pensamiento del modelo de IA con el pensamiento humano, según Tworek. Pero la interfaz está destinada a mostrar cómo el modelo pasa más tiempo procesando y profundizando en la resolución de problemas, dice. “Hay formas en que se siente más humano que modelos anteriores”. “Creo que verás que hay muchas formas en que se siente algo alienígena, pero también hay formas en que se siente sorprendentemente humano”, dice McGrew. El modelo tiene un tiempo limitado para procesar consultas, por lo que podría decir algo como, “Oh, me estoy quedando sin tiempo, déjame llegar rápidamente a una respuesta”. Desde el principio, durante su cadena de pensamiento, también puede parecer que está brainstorming y decir algo como, “Podría hacer esto o aquello, ¿qué debería hacer?”.

Futuro y avances en investigación

Los modelos de lenguaje grande no son exactamente tan inteligentes como existen hoy en día. Esencialmente, solo predicen secuencias de palabras para ofrecerte una respuesta basada en patrones aprendidos de enormes cantidades de datos. Toma ChatGPT, que tiende a afirmar erróneamente que la palabra “fresa” tiene solo dos Rs porque no descompone la palabra correctamente. Por lo que vale, el nuevo modelo o1 respondió correctamente a esa consulta.

Mientras OpenAI busca levantar más fondos a una asombrosa valoración de $150 mil millones, su impulso depende de más descubrimientos de investigación. La empresa está aportando capacidades de razonamiento a los LLMs porque ve un futuro con sistemas autónomos, o agentes, que son capaces de tomar decisiones y realizar acciones en tu nombre. Para los investigadores de IA, resolver el razonamiento es un paso importante hacia la inteligencia a nivel humano. La idea es que, si un modelo es capaz de más que el reconocimiento de patrones, podría desbloquear avances en áreas como la medicina y la ingeniería. Por ahora, sin embargo, las habilidades de razonamiento de o1 son relativamente lentas, no son como agentes, y costosas para que los desarrolladores las utilicen.

“Hemos estado trabajando muchos meses en el razonamiento porque creemos que este es el avance crítico”, dice McGrew. “Fundamentalmente, esta es una nueva modalidad para los modelos con el fin de poder resolver los problemas realmente difíciles que se necesitan para progresar hacia niveles de inteligencia similares a los humanos.”

Fuente y créditos: www.theverge.com

Cats: