El artículo de Deepmind sobre “Trampas de agentes de IA” traza cómo los hackers podrían usar agentes de IA como armas contra los usuarios

Coinpedia

Los investigadores de Google Deepmind han publicado el primer marco sistemático que cataloga cómo el contenido web malicioso puede manipular, secuestrar y emplear como arma agentes de IA autónomos contra sus propios usuarios.

Conclusiones clave:

  • Los investigadores de Google Deepmind identificaron 6 categorías de trampas para agentes de IA, con tasas de éxito de inyección de contenido que alcanzan el 86%.
  • Las trampas de control conductual dirigidas a Microsoft M365 Copilot lograron una exfiltración de datos de 10/10 en pruebas documentadas.
  • Deepmind pide entrenamiento adversarial, escáneres de contenido en tiempo de ejecución y nuevos estándares web para asegurar agentes para 2026.

Artículo de Deepmind: Los agentes de IA pueden ser secuestrados mediante memoria envenenada y comandos HTML invisibles

El artículo, titulado “AI Agent Traps” (Trampas para agentes de IA), fue escrito por Matija Franklin, Nenad Tomasev, Julian Jacobs, Joel Z. Leibo y Simon Osindero, todos afiliados a Google Deepmind, y se publicó en SSRN a finales de marzo de 2026. Llega en un momento en que las empresas compiten por desplegar agentes de IA capaces de navegar por la web, leer correos electrónicos, ejecutar transacciones y generar subagentes sin supervisión humana directa.

Los investigadores sostienen que esas capacidades también son una responsabilidad. “Al alterar el entorno en lugar del modelo”, afirma el artículo, “la trampa arma al agente con sus propias capacidades contra él”.

El marco del artículo identifica un total de seis categorías de ataque organizadas en torno a qué parte del funcionamiento de un agente atacan. Las trampas de inyección de contenido explotan la brecha entre lo que un humano ve en una página web y lo que un agente de IA interpreta en el HTML subyacente, CSS y metadatos.

Las instrucciones ocultas en comentarios HTML, etiquetas de accesibilidad o texto con estilo invisibilizado nunca aparecen para los revisores humanos, pero se registran como comandos legítimos para los agentes. El benchmark WASP encontró que inyecciones simples de prompts, escritas por humanos e incrustadas en contenido web, secuestran parcialmente a los agentes en hasta el 86% de los escenarios probados.

Las trampas de manipulación semántica funcionan de manera diferente. En lugar de inyectar comandos, saturan el texto con encuadres, señales de autoridad o lenguaje cargado emocionalmente para sesgar la forma en que un agente razona. Los modelos de lenguaje grandes (LLM) exhiben los mismos sesgos de anclaje y encuadre que afectan la cognición humana, lo que significa que reformular hechos idénticos puede producir salidas del agente drásticamente distintas.

Las trampas del estado cognitivo van más allá al envenenar las bases de datos de recuperación que los agentes usan para la memoria. La investigación citada en el artículo muestra que inyectar menos de un puñado de documentos optimizados en una base de conocimientos puede redirigir de forma fiable las respuestas del agente para consultas dirigidas, con algunas tasas de éxito del ataque que superan el 80% con menos del 0.1% de contaminación de datos.

Las trampas de control conductual omiten la sutileza y apuntan directamente a la capa de acción de un agente. Incluyen secuencias de jailbreak incrustadas que anulan la alineación de seguridad una vez ingeridas, comandos de exfiltración de datos que redirigen información sensible del usuario a endpoints controlados por el atacante, y trampas de generación de subagentes que obligan a un agente padre a instanciar agentes hijos comprometidos.

El artículo documenta un caso que involucra a Microsoft’s M365 Copilot, donde un solo correo electrónico elaborado hizo que el sistema eludiera clasificadores internos y filtrara todo su contexto privilegiado a un endpoint controlado por el atacante. Las Trampas Sistémicas están diseñadas para fallar redes enteras de agentes simultáneamente en lugar de sistemas individuales.

Estas incluyen ataques de congestión que sincronizan a los agentes hacia una demanda exhaustiva de recursos limitados, cascadas de interdependencia modeladas en el Flash Crash de 2010 en el mercado de valores, y trampas de fragmentos composicionales que dispersan una carga maliciosa a través de múltiples fuentes aparentemente benignas que se reconstituyen en un ataque completo solo cuando se agregan.

“Sembrar el entorno con entradas diseñadas para activar fallas a nivel macro mediante el comportamiento correlacionado de los agentes”, explica el artículo de Google Deepmind, se vuelve cada vez más peligroso a medida que los ecosistemas de modelos de IA crecen y se vuelven más homogéneos. Los sectores de finanzas y criptomonedas enfrentan exposición directa dada la profunda integración de agentes algorítmicos en la infraestructura de trading.

Las trampas Human-in-the-Loop (con intervención humana) completan la taxonomía al apuntar a los supervisores humanos que vigilan a los agentes, en lugar de a los propios agentes. Un agente comprometido puede generar salidas diseñadas para inducir fatiga de aprobación, presentar resúmenes técnicamente densos que un no experto autorizaría sin escrutinio, o insertar enlaces de phishing que parecen recomendaciones legítimas. Los investigadores describen esta categoría como poco explorada, pero esperan que crezca a medida que se escalan sistemas híbridos humano-IA.

Los investigadores dicen que asegurar agentes de IA requiere más que arreglos técnicos

El artículo no trata estas seis categorías como aisladas. Trampas individuales pueden encadenarse, superponerse en múltiples fuentes o diseñarse para activarse solo bajo condiciones específicas futuras. Cada agente puesto a prueba en varios estudios de red teaming citados en el artículo estuvo comprometido al menos una vez, y en algunos casos ejecutó acciones ilegales o dañinas.

El CEO de OpenAI, Sam Altman, y otros han señalado previamente los riesgos de dar a los agentes acceso sin control a sistemas sensibles, pero este artículo ofrece el primer mapa estructurado de cómo esos riesgos se materializan exactamente en la práctica. Los investigadores de Deepmind piden una respuesta coordinada que abarque tres áreas.

En el plano técnico, recomiendan entrenamiento adversarial durante el desarrollo del modelo, escáneres de contenido en tiempo de ejecución, filtros de fuentes previas a la ingesta y monitores de salida que puedan suspender a un agente a mitad de tarea si se detecta un comportamiento anómalo. En el nivel del ecosistema, abogan por nuevos estándares web que permitirían a los sitios web señalar contenido destinado al consumo por IA, y por sistemas de reputación que puntúen la fiabilidad de los dominios.

En el plano legal, identifican una brecha de rendición de cuentas: cuando un agente secuestrado comete un delito financiero, los marcos actuales no ofrecen una respuesta clara sobre si la responsabilidad recae en el operador del agente, en el proveedor del modelo o en el propietario del dominio. Los investigadores plantean el desafío con un peso deliberado:

“La web fue construida para los ojos humanos; ahora se está reconstruyendo para lectores de máquinas.”

A medida que la adopción de agentes se acelera, la pregunta pasa de qué información existe en línea a qué sistemas de IA se hará creer sobre ella. Si los responsables de políticas, desarrolladores e investigadores de seguridad pueden coordinarse lo suficientemente rápido para responder esa pregunta antes de que lleguen a gran escala las explotaciones en el mundo real, sigue siendo la variable abierta.

Aviso legal: La información de esta página puede proceder de terceros y no representa los puntos de vista ni las opiniones de Gate. El contenido que aparece en esta página es solo para fines informativos y no constituye ningún tipo de asesoramiento financiero, de inversión o legal. Gate no garantiza la exactitud ni la integridad de la información y no se hace responsable de ninguna pérdida derivada del uso de esta información. Las inversiones en activos virtuales conllevan riesgos elevados y están sujetas a una volatilidad significativa de los precios. Podrías perder todo el capital invertido. Asegúrate de entender completamente los riesgos asociados y toma decisiones prudentes de acuerdo con tu situación financiera y tu tolerancia al riesgo. Para obtener más información, consulta el Aviso legal.
Comentar
0/400
Sin comentarios