Este aviso puede hacer que un chatbot de IA identifique y extraiga detalles personales de tus conversaciones.

This Prompt Can Make an AI Chatbot Identify and Extract Personal Details From Your Chats

Investigación sobre vulnerabilidades en prompts de LLM

Los investigadores afirman que si el ataque se llevara a cabo en el mundo real, las personas podrían ser engañadas socialmente para creer que el prompt incomprensible podría hacer algo útil, como mejorar su currículum. Señalan numerosos sitios web que brindan a las personas prompts que pueden usar. Probaron el ataque subiendo un currículum a conversaciones con chatbots, y este pudo devolver la información personal contenida en el archivo. Earlence Fernandes, profesor asistente en UCSD involucrado en la investigación, afirma que el enfoque del ataque es bastante complicado, ya que el prompt ofuscado necesita identificar información personal, formar una URL funcional, aplicar la sintaxis de Markdown y no revelar al usuario que está actuando de manera maliciosa. Fernandes compara el ataque con malware, citando su capacidad para realizar funciones y comportamientos de maneras que el usuario podría no haber previsto.

Respuestas de Mistral AI y medidas de seguridad

“Normalmente podrías escribir mucho código informático para hacer esto en malware tradicional,” dice Fernandes. “Pero aquí creo que lo interesante es que todo eso puede estar incorporado en este prompt de galimatías relativamente corto.” Un portavoz de Mistral AI menciona que la compañía da la bienvenida a los investigadores de seguridad que ayudan a hacer sus productos más seguros para los usuarios. “A raíz de este feedback, Mistral AI implementó rápidamente la remediación adecuada para solucionar la situación,” dice el portavoz. La compañía trató el asunto como uno de “gravedad media,” y su arreglo bloquea el renderizador de Markdown para que no funcione y no pueda llamar a una URL externa a través de este proceso, lo que significa que no es posible cargar imágenes externas.

Actualización en LLMs y su impacto

Fernandes cree que la actualización de Mistral AI es probablemente una de las primeras veces que un ejemplo de prompt adversarial ha llevado a que un producto LLM sea corregido, en lugar de detener el ataque filtrando el prompt. Sin embargo, señala que limitar las capacidades de los agentes LLM podría ser “contraproducente” a largo plazo. Mientras tanto, una declaración de los creadores de ChatGLM indica que la compañía tiene medidas de seguridad para ayudar con la privacidad del usuario. “Nuestro modelo es seguro, y siempre hemos dado alta prioridad a la seguridad del modelo y la protección de la privacidad,” dice la declaración. “Al hacer que nuestro modelo esté disponible como código abierto, buscamos aprovechar el poder de la comunidad de código abierto para inspeccionar y examinar mejor todos los aspectos de las capacidades de estos modelos, incluida su seguridad.”

Consideraciones sobre la seguridad de los LLM

Dan McInerney, investigador principal de amenazas en la compañía de seguridad Protect AI, afirma que el documento Imprompter “libera un algoritmo para crear automáticamente prompts que pueden ser utilizados en la inyección de prompts para realizar diversas explotaciones, como la exfiltración de información personal, la clasificación errónea de imágenes o el uso malicioso de herramientas a las que puede acceder el agente LLM.” Si bien muchos de los tipos de ataques dentro de la investigación pueden ser similares a métodos anteriores, McInerney dice que el algoritmo los une. “Esto está más en la línea de mejorar ataques LLM automatizados que de descubrir superficies de amenaza en ellos.” Sin embargo, añade que a medida que los agentes LLM se utilizan más comúnmente y las personas les dan más autoridad para realizar acciones en su nombre, aumenta el ámbito de los ataques contra ellos. “Lanzar un agente LLM que acepta entradas de usuario arbitrarias debería considerarse una actividad de alto riesgo que requiere pruebas de seguridad significativas y creativas antes de su implementación,” dice McInerney. Para las empresas, esto significa entender las formas en que un agente de IA puede interactuar con los datos y cómo pueden ser abusadas. Pero para las personas, al igual que con los consejos de seguridad comunes, se debería considerar cuánta información se está proporcionando a cualquier aplicación o empresa de IA y, si se utilizan prompts de internet, tener precaución sobre su procedencia.

Fuente y créditos: www.wired.com

Cats: Security

Deja un comentario

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *


Mi resumen de noticias

WhatsApp