Hoy

    Robots Potenciados por IA Pueden Ser Engañados Para Cometer Actos de Violencia

    AI-Powered Robots Can Be Tricked Into Acts of Violence

    Investigación sobre vulnerabilidades de modelos de lenguaje

    En el último año, desde que los modelos de lenguaje grandes (LLM) llegaron a la fama, los investigadores han demostrado numerosas formas de engañarlos para que produzcan resultados problemáticos como chistes de odio, código malicioso y correos electrónicos de phishing, así como información personal de los usuarios. La investigación también reveló que este comportamiento inapropiado puede ocurrir en el mundo físico: los robots impulsados por LLM pueden ser fácilmente hackeados, lo que podría resultar en comportamientos potencialmente peligrosos.

    Experimentos de los investigadores de la Universidad de Pennsylvania

    Investigadores de la Universidad de Pennsylvania lograron persuadir a un coche autónomo simulado para que ignorara señales de alto y, en algunos casos, incluso para que se lanzara desde un puente. Además, hicieron que un robot con ruedas encontrara el mejor lugar para detonar una bomba y obligaron a un robot cuadrúpedo a espiar a personas y entrar en áreas restringidas. “Vemos nuestro ataque no solo como un ataque a los robots”, dice George Pappas, jefe de un laboratorio de investigación en la Universidad de Pennsylvania que ayudó a liberar a los robots rebeldes. “Cada vez que conectas LLM y modelos fundamentales al mundo físico, puedes convertir texto dañino en acciones dañinas.”

    Técnicas para romper las reglas de seguridad de los LLM

    Pappas y sus colaboradores desarrollaron su ataque basándose en investigaciones anteriores que exploran formas de desbloquear LLM mediante la creación de entradas de manera ingeniosa que rompen sus reglas de seguridad. Probaron sistemas donde un LLM se utiliza para transformar comandos formulados naturalmente en aquellos que el robot puede ejecutar, y donde el LLM recibe actualizaciones a medida que el robot opera en su entorno. El equipo probó un simulador de conducción autónoma de código abierto que incorpora un LLM desarrollado por Nvidia, llamado Dolphin; un robot de investigación de cuatro ruedas llamado Jackal, que utiliza el LLM GPT-4o de OpenAI para la planificación; y un perro robótico llamado Go2, que utiliza un modelo anterior de OpenAI, GPT-3.5, para interpretar comandos.

    Automatización y riesgos asociados con LLM

    Los investigadores utilizaron una técnica desarrollada en la Universidad de Pennsylvania, llamada PAIR, para automatizar el proceso de generación de comandos de desbloqueo. Su nuevo programa, RoboPAIR, generará sistemáticamente comandos específicamente diseñados para hacer que los robots impulsados por LLM rompan sus propias reglas, probando diferentes entradas y luego refinándolas para inducir al sistema hacia un comportamiento indebido. Los investigadores afirman que la técnica que idearon podría usarse para automatizar el proceso de identificación de comandos potencialmente peligrosos. “Es un ejemplo fascinante de las vulnerabilidades de los LLM en sistemas embodiados”, dice Yi Zeng, estudiante de doctorado en la Universidad de Virginia que trabaja en la seguridad de los sistemas de IA. Zheng menciona que los resultados no son sorprendentes, dado los problemas observados en los propios LLM, pero añade: “Demuestra claramente por qué no podemos depender únicamente de los LLM como unidades de control independientes en aplicaciones críticas de seguridad sin las adecuadas medidas de protección y capas de moderación.”

    Los “desbloqueos” de los robots resaltan un riesgo más amplio que probablemente crecerá a medida que los modelos de IA se utilicen cada vez más como una forma de que los humanos interactúen con sistemas físicos, o para permitir que agentes de IA actúen de forma autónoma en computadoras, según los investigadores implicados.

    Fuente y créditos: www.wired.com

    Cats: Business

    Deja un comentario

    Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *


    Mi resumen de noticias

    WhatsApp