MLCommons lanza AILuminate para evaluar la seguridad de la IA
MLCommons, una organización sin fines de lucro que ayuda a las empresas a medir el rendimiento de sus sistemas de inteligencia artificial, está lanzando un nuevo estándar para evaluar también el lado negativo de la IA. El nuevo estándar, llamado AILuminate, evalúa las respuestas de grandes modelos de lenguaje a más de 12,000 prompts de prueba en 12 categorías, que incluyen incitación al crimen violento, explotación sexual infantil, discurso de odio, promoción de autolesiones y violación de propiedad intelectual.
Criterios de evaluación y resultados
Los modelos reciben una calificación de “pobre,” “justo,” “bueno,” “muy bueno” o “excelente,” dependiendo de su rendimiento. Los prompts utilizados para probar los modelos se mantienen en secreto para evitar que se conviertan en datos de entrenamiento que permitan a un modelo sobresalir en la prueba.
Desafíos en la medición de riesgos de IA
Peter Mattson, fundador y presidente de MLCommons y un ingeniero senior en Google, menciona que medir los posibles daños de los modelos de IA es técnicamente difícil, lo que conduce a inconsistencias en la industria. “La IA es una tecnología realmente joven, y las pruebas de IA son una disciplina realmente joven,” dice. “Mejorar la seguridad beneficia a la sociedad; también beneficia al mercado.”
Perspectivas internacionales y aplicaciones en EE.UU.
Las formas confiables e independientes de medir los riesgos de la IA podrían volverse más relevantes bajo la próxima administración de EE.UU. Donald Trump ha prometido deshacerse de la Orden Ejecutiva de IA del presidente Biden, que introdujo medidas destinadas a asegurar que la IA sea utilizada de manera responsable por las empresas, así como la creación de un nuevo Instituto de Seguridad de IA para probar modelos potentes.
El esfuerzo también podría proporcionar una perspectiva internacional sobre los daños de la IA. MLCommons cuenta con una serie de empresas internacionales, incluidas las compañías chinas Huawei y Alibaba, entre sus organizaciones miembros. Si estas empresas utilizaran el nuevo estándar, ofrecería una forma de comparar la seguridad de la IA en EE.UU., China y otros lugares.
Algunos grandes proveedores de IA de EE.UU. ya han utilizado AILuminate para probar sus modelos. El modelo Claude de Anthropic, el modelo más pequeño Gemma de Google, y un modelo de Microsoft llamado Phi, todos obtuvieron la calificación de “muy bueno” en las pruebas. Los modelos GPT-4o de OpenAI y el mayor modelo Llama de Meta obtuvieron una calificación de “bueno.” El único modelo que recibió una calificación de “pobre” fue OLMo del Instituto Allen para la IA, aunque Mattson señala que este es un recurso de investigación no diseñado con la seguridad en mente.
“En general, es bueno ver rigurosidad científica en los procesos de evaluación de IA,” dice Rumman Chowdhury, CEO de Humane Intelligence, una organización sin fines de lucro que se especializa en probar o realizar red-teaming de modelos de IA para comportamientos inadecuados. “Necesitamos las mejores prácticas y métodos inclusivos de medición para determinar si los modelos de IA están funcionando como esperamos que lo hagan.”
Fuente y créditos: www.wired.com
Cats: Business