OpenAI y su modelo AI “Strawberry”
OpenAI realmente no quiere que sepas lo que su último modelo de IA está “pensando”. Desde que la compañía lanzó su familia de modelos AI “Strawberry” la semana pasada, presumiendo de supuestas habilidades de razonamiento con o1-preview y o1-mini, OpenAI ha estado enviando correos electrónicos de advertencia y amenazas de prohibiciones a cualquier usuario que intente indagar cómo funciona el modelo.
Proceso de razonamiento oculto
A diferencia de modelos de IA anteriores de OpenAI, como GPT-4o, la compañía entrenó a o1 específicamente para trabajar a través de un proceso de resolución de problemas paso a paso antes de generar una respuesta. Cuando los usuarios hacen una pregunta a un modelo “o1” en ChatGPT, tienen la opción de ver este proceso de cadena de pensamiento escrito en la interfaz de ChatGPT. Sin embargo, por diseño, OpenAI oculta la cadena de pensamiento en bruto de los usuarios, presentando en su lugar una interpretación filtrada creada por un segundo modelo de IA.
Investigación y avisos
Nada es más atractivo para los entusiastas que la información oscurecida, por lo que ha comenzado una carrera entre hackers y equipos de prueba para intentar descubrir la cadena de pensamiento en bruto de o1 utilizando técnicas de “jailbreaking” o inyección de comandos que intentan engañar al modelo para revelar sus secretos. Ha habido informes tempranos de algunos éxitos, pero nada ha sido confirmado de manera contundente.
A lo largo del proceso, OpenAI está observando a través de la interfaz de ChatGPT, y la compañía aparentemente está tomando medidas drásticas contra cualquier intento de indagar en el razonamiento de o1, incluso entre los meramente curiosos. Un usuario de X informó (confirmado por otros, incluyendo al ingeniero de Scale AI, Riley Goodside) que recibió un correo electrónico de advertencia si usó el término “traza de razonamiento” en la conversación con o1. Otros dicen que la advertencia se activa simplemente al preguntar a ChatGPT sobre el “razonamiento” del modelo.
Advertencias y consecuencias
El correo electrónico de advertencia de OpenAI indica que solicitudes específicas de usuarios han sido marcadas por violar políticas contra el eludir salvaguardias o medidas de seguridad. “Por favor, detengan esta actividad y asegúrense de que están usando ChatGPT de acuerdo con nuestros Términos de Uso y nuestras Políticas de Uso”, dice el mensaje. “Violaciones adicionales de esta política pueden resultar en la pérdida del acceso a GPT-4o con Razonamiento,” refiriéndose a un nombre interno para el modelo o1.
Marco Figueroa, quien gestiona los programas de recompensas por errores de GenAI de Mozilla, fue uno de los primeros en publicar sobre el correo electrónico de advertencia de OpenAI en X el viernes pasado, quejándose de que obstaculiza su capacidad para realizar investigaciones de seguridad positiva sobre el modelo. “Estaba demasiado perdido enfocándome en #AIRedTeaming para darme cuenta de que recibí este correo de @OpenAI ayer después de todos mis jailbreaking,” escribió. “¡Ahora estoy en la lista de prohibidos!!!”
Cadenas de pensamiento ocultas
En una publicación titulada “Aprendiendo a Razonar con LLMs” en el blog de OpenAI, la compañía dice que las cadenas de pensamiento ocultas en los modelos de IA ofrecen una oportunidad de monitoreo única, permitiendo que “lean la mente” del modelo y entiendan su supuesto proceso de pensamiento. Esos procesos son más útiles para la compañía si se dejan en bruto y sin censura, pero eso puede no alinearse con los mejores intereses comerciales de la compañía por varias razones.
“Por ejemplo, en el futuro podemos desear monitorear la cadena de pensamiento en busca de signos de manipulación del usuario,” escribe la compañía. “Sin embargo, para que esto funcione, el modelo debe tener libertad para expresar sus pensamientos en forma inalterada, por lo que no podemos entrenar ninguna política de cumplimiento o preferencias del usuario en la cadena de pensamiento. También queremos evitar hacer visible de manera directa una cadena de pensamiento no alineada para los usuarios.”
Fuente y créditos: www.wired.com
Cats: Business / Artificial Intelligence,open sesame