Desafíos de los Agentes de IA
Las demostraciones de agentes de IA pueden parecer sorprendentes, pero lograr que la tecnología funcione de manera confiable y sin errores molestos o costosos en la vida real puede ser un desafío. Los modelos actuales pueden responder preguntas y conversar con una habilidad casi humana, siendo la columna vertebral de chatbots como ChatGPT de OpenAI y Gemini de Google. También pueden realizar tareas en computadoras al recibir un comando simple, accediendo a la pantalla de la computadora, así como a dispositivos de entrada como el teclado y el panel táctil o mediante interfaces de software de bajo nivel.
Comparativa de Rendimiento
Anthropic afirma que Claude supera a otros agentes de IA en varios indicadores clave, como SWE-bench, que mide las habilidades de desarrollo de software de un agente y OSWorld, que evalúa la capacidad de un agente para usar un sistema operativo. Estos reclamos aún no han sido verificados de manera independiente. Anthropic afirma que Claude realiza tareas en OSWorld correctamente el 14.9 por ciento de las veces. Esto está muy por debajo de los humanos, que generalmente tienen una puntuación de alrededor del 75 por ciento, pero considerablemente por encima de los mejores agentes actuales, incluido GPT-4 de OpenAI, que tiene éxito aproximadamente el 7.7 por ciento de las veces.
Anthropic afirma que varias empresas ya están probando la versión agente de Claude. Esto incluye a Canva, que lo está utilizando para automatizar tareas de diseño y edición, y Replit, que usa el modelo para tareas de codificación. Otros primeros usuarios incluyen a The Browser Company, Asana y Notion.
Limitaciones y Potencial Futuro
Ofir Press, un investigador postdoctoral de la Universidad de Princeton que ayudó a desarrollar SWE-bench, dice que la IA agente tiende a carecer de la capacidad de planificar a largo plazo y a menudo lucha por recuperarse de errores. “Para demostrar que son útiles, debemos obtener un rendimiento sólido en indicadores difíciles y realistas”, afirma, como planificar de manera confiable una amplia gama de viajes para un usuario y reservar todos los boletos necesarios.
Kaplan señala que Claude ya puede resolver algunos errores sorprendentemente bien. Por ejemplo, cuando se enfrenta a un error terminal al intentar iniciar un servidor web, el modelo sabía cómo revisar su comando para solucionarlo. También comprendió que tenía que habilitar las ventanas emergentes cuando encontró un callejón sin salida navegando por la web.
Competencia en el Desarrollo de Agentes de IA
Muchas empresas de tecnología están compitiendo actualmente para desarrollar agentes de IA mientras persiguen participación de mercado y prominencia. De hecho, puede que no pase mucho tiempo antes de que muchos usuarios tengan agentes al alcance de su mano. Microsoft, que ha invertido más de $13 mil millones en OpenAI, dice estar probando agentes que pueden usar computadoras con Windows. Amazon, que ha invertido fuertemente en Anthropic, está explorando cómo los agentes podrían recomendar y eventualmente comprar bienes para sus clientes.
Sonya Huang, socia de la empresa de capital riesgo Sequoia que se enfoca en empresas de IA, dice que, a pesar de la emoción en torno a los agentes de IA, la mayoría de las empresas realmente están simplemente reetiquetando herramientas impulsadas por IA. Hablando con WIRED antes de las noticias de Anthropic, dice que la tecnología funciona mejor actualmente cuando se aplica en dominios estrechos, como el trabajo relacionado con la codificación. “Necesitas elegir espacios problemáticos donde si el modelo falla, está bien”, dice. “Esos son los espacios problemáticos donde surgirán verdaderas empresas nativas de agentes.”
Un desafío clave con la IA agente es que los errores pueden ser mucho más problemáticos que una respuesta confusa de un chatbot. Anthropic ha impuesto ciertas restricciones a lo que Claude puede hacer, por ejemplo, limitando su capacidad para usar la tarjeta de crédito de una persona para comprar cosas.
Si los errores se pueden evitar lo suficiente, dice Press de la Universidad de Princeton, los usuarios pueden aprender a ver la IA —y las computadoras— de una manera completamente nueva. “Estoy muy emocionado por esta nueva era”, dice.
Fuente y créditos: www.wired.com
Cats: Business