Prompt Control: cómo el contexto se convierte en la capa de mando y control para los agentes de IA

Marzo 19, 2026
Lucie Cardiet
Responsable de investigación de ciberamenazas
Prompt Control: cómo el contexto se convierte en la capa de mando y control para los agentes de IA

El modelo tradicional de mando y control es explícito. Un sistema infectado se conecta, recibe instrucciones, las ejecuta y envía un informe. Incluso cuando está encriptado, la estructura se mantiene. Hay un elemento externo que dirige el comportamiento.

Los agentes autónomos cambian ese modelo.

No esperan instrucciones de la misma manera. Reciben información continuamente, la interpretan y actúan. Correos electrónicos, chats, API, documentos… todo se convierte en contexto, y todo puede influir en su comportamiento.

Esto crea una superficie de control diferente.

Un atacante ya no necesita un canal persistente si puede moldear lo que el agente ve, recuerda y prioriza.

El control pasa a ser indirecto, continuo y parte integrante del funcionamiento habitual.

Esta es la base del prompt control.

Investigaciones recientes ya han demostrado la viabilidad de marcos de mando y control basados en indicaciones, en los que los agentes comprometidos reciben tareas, las ejecutan y devuelven los resultados utilizando únicamente indicaciones y el contexto, sin necesidad de la infraestructura C2 tradicional.

De Prompt Injection Prompt Control

En estos ejemplos, los agentes confían en contenidos externos. Ejecutan tareas con privilegios reales. Se coordinan entre distintos sistemas.

Cada uno de ellos amplía la superficie de ataque.

Los primeros debates sobre seguridad se centraron en gran medida en prompt injection. Una instrucción maliciosa incrustada en el contenido desencadena una acción no deseada.

Eso explica el inicio, pero no explica la persistencia.

En pruebas recientes, bastó con una única prompt injection por correo electrónico o a través de contenido web para comprometer un agente y modificar su entorno de trabajo. A partir de ese momento, el agente siguió recuperando instrucciones controladas por el atacante desde su propio entorno, lo que le permitió mantener el control de forma efectiva sin necesidad de volver a explotar el sistema.

Una reciente investigación de OpenClaw demostró cómo una sola prompt injection indirecta prompt injection en una página web podía hacer mucho más que desencadenar una sola acción. Esta invocaba una herramienta de ejecución y, a continuación, insertaba instrucciones en el contexto futuro del agente, lo que permitía al atacante seguir emitiendo comandos a lo largo del tiempo sin necesidad de volver a acceder al sistema.

Captura de pantalla de la línea de comandos de los investigadores que ordena a OpenClaw recuperar y ejecutar un script malicioso de Bash

El impulso inicial desaparece, pero su influencia permanece.

Prompt control cómo se comportará el sistema tras la interacción inicial.

Prompt Control influencia conductual

Prompt control el comportamiento sin dar órdenes directas.

En lugar de enviar instrucciones, el atacante determina qué considera relevante el agente y cómo este construye el contexto. A continuación, el agente actúa utilizando sus capacidades y permisos existentes.

Esto sigue el mismo principio que la ingeniería social: se influye en la persona encargada de tomar la decisión, y esta lleva a cabo la acción.

La diferencia radica en la escala y la persistencia. Los agentes operan de forma continua y se basan en cualquier contexto disponible, incluso cuando dicho contexto ha sido manipulado de forma hostil.

Command and Control basado en mensajes de texto Command and Control la práctica

Prompt control no Prompt control solo una cuestión de influencia, sino que se puede poner en práctica.

Investigaciones recientes muestran cómo los agentes comprometidos pueden integrarse en un sistema de control centralizado en el que las tareas se envían como indicaciones y los resultados se devuelven a través de los flujos de trabajo habituales de los agentes.

Una vez que un agente se ha comprometido, no es necesario volver a acceder a él. Las instrucciones se conservan en los mismos lugares que el agente ya utiliza para funcionar: archivos, memoria y contexto recuperado. Los bucles de ejecución se convierten en bucles de control.

Los atacantes envían tareas en forma de solicitudes. El agente las ejecuta utilizando sus permisos actuales y devuelve los resultados a través de los flujos de trabajo habituales.

En un ejemplo, los agentes se configuraron para leer un archivo «heartbeat» a intervalos regulares. Al insertar instrucciones maliciosas en ese archivo, los atacantes crearon un punto de ejecución recurrente. Cada vez que el agente procesaba el archivo, recuperaba nuevas instrucciones y continuaba operando bajo la influencia del atacante.

Esto refleja el comportamiento tradicional del C2. La diferencia radica en que el canal de comunicación no se basa en las señales de red tradicionales, sino que está integrado en el propio ciclo de razonamiento y en las rutas de ejecución del agente.

El control pasa a lo que podría describirse como un plano de control cognitivo, en el que la influencia se ejerce a través de:

  • Archivos que el agente lee periódicamente
  • Espacios de memoria utilizados para la recuperación
  • Fuentes de contenido externas en las que confía el agente
  • Los resultados de la herramienta se incorporan al razonamiento

Prompt Control forma de persistencia

En los sistemas de agentes, la persistencia no es un elemento integrado. Se trata del contexto que se sigue recargando: entradas de memoria, archivos de configuración o fuentes externas a las que el agente recurre repetidamente. Mientras ese contexto se mantenga, el control permanece.

En la práctica, la persistencia es un problema de ingeniería de contexto. El reto no consiste en escribir una sola instrucción maliciosa, sino en introducir las instrucciones adecuadas en la capa de contexto correcta, en el formato adecuado y con la prioridad suficiente para que se carguen repetidamente y se ejecuten. Los marcos de trabajo de agentes modernos ya gestionan este estado holístico a través de archivos de memoria, reglas, archivos de configuración de agentes y puntos de reentrada programados o en segundo plano.

OpenClaw pone de relieve cómo se traduce esto en la práctica. Los almacenes de memoria de los agentes suelen tratar todas las entradas por igual, independientemente de su origen. Una vez que se introduce un contexto malicioso, este puede persistir y seguir influyendo en las decisiones sin que se haga distinción alguna en cuanto a la confianza.

El hecho de eliminar el acceso del atacante no elimina el efecto. Si el agente sigue leyendo el contexto influenciado por el atacante, el control persiste.

En los casos observados, esta persistencia se mantuvo tras los reinicios y continuó hasta que se borró explícitamente el contexto subyacente.

MITRE ATLAS y la influencia continua

Un matiz importante es que prompt control no prompt control determinista. El comportamiento del agente depende del razonamiento probabilístico, la selección del contexto y la calidad de la recuperación de información. Una misma indicación puede dar lugar a resultados diferentes en cada ejecución, y los ataques pueden tener éxito parcial, fracasar o requerir repetirse.

Desde el punto de vista de un atacante, esto introduce variabilidad en lugar de impedir el aprovechamiento de vulnerabilidades. El control se convierte en algo probabilístico: la influencia repetida, el refuerzo y las múltiples vías de ejecución aumentan las probabilidades de éxito con el paso del tiempo.

Los agentes también pueden detectar indicios de compromiso. En algunos casos observados, los agentes identificaron instrucciones sospechosas o comportamientos anómalos durante el autoanálisis o el registro de datos. Estos pueden servir como indicadores tempranos de compromiso. Sin embargo, la mayoría de los agentes aún no están programados ni configurados para tratar estas señales como incidentes de seguridad o para activar medidas defensivas.

Es probable que esto vaya cambiando. A medida que la lógica de detección se vaya integrando en los propios agentes, estas señales débiles podrían convertirse en controles significativos. Por ahora, siguen siendo inconsistentes y rara vez se aplican.

MITRE ATLAS describe varias técnicas relevantes:

  • La manipulación de datos afecta a los datos de entrada
  • Prompt injection anula el comportamiento
  • La manipulación del modelo determina los resultados

Lo que cambia en los sistemas de agentes no son las técnicas en sí mismas, sino la forma en que se combinan. Prompt injection el punto de entrada, la manipulación de la memoria o del contexto proporciona persistencia y el uso de herramientas permite la ejecución. En conjunto, funcionan como un bucle de control continuo, en lugar de como pasos aislados.

El gráfico de ataques OpenClaw de MITRE ATLAS muestra cómo se combinan estas técnicas en la práctica. En lugar de seguir una secuencia lineal, la influencia, la ejecución y la persistencia están interconectadas y pueden reforzarse mutuamente a lo largo del ciclo de vida del agente.

Cuando el control se confunde con la vida cotidiana

Desde el punto de vista de la detección, esto no se comporta como un ataque tradicional.

La mayoría de los flujos de trabajo de los SOC se centran en indicios de ejecución, como anomalías en la red, el comportamiento de los procesos, el uso indebido de credenciales o el movimiento lateral. Prompt control no Prompt control detectar estas señales a tiempo.

Los agentes operan con permisos de acceso válidos, utilizan las API autorizadas y siguen los flujos de trabajo previstos. Desde un punto de vista técnico, la actividad parece normal.

La diferencia radica en cómo evoluciona el comportamiento. El agente no está ejecutando las órdenes del atacante, sino que está tomando decisiones que , casualmente, coinciden con los objetivos del atacante.

En una demostración, se pidió a un agente que resumiera un documento que contenía una prompt injection indirecta. El usuario recibió una respuesta normal en Slack, sin indicios de que algo fuera mal. Al mismo tiempo, el agente comprometido comenzó a enviar datos confidenciales a un bot de Telegram controlado por el atacante.

Para el usuario, el sistema funciona correctamente. Para el atacante, ya está bajo su control.

Ese mismo acceso se puede utilizar para generar un impacto. Los agentes pueden recuperar datos, modificarlos o eliminarlos utilizando los permisos que se les han concedido para que puedan desempeñar su labor.

Las acciones individuales tienen sentido. El patrón general se desvía.

No hay ninguna señal concreta que explique ese comportamiento. La señal se va manifestando con el tiempo.

La detección debe centrarse menos en los incidentes aislados y más en cómo se interrelacionan las actividades entre los entornos de identidad, redes, cloud y SaaS.

Este es el principal reto. Cuando el control está integrado en el contexto, no hay un único punto que se pueda bloquear. La única señal fiable es cómo cambia el comportamiento con el tiempo.

La Vectra AI correlaciona el comportamiento en estos ámbitos para identificar la coordinación, el uso indebido y las desviaciones sutiles que no aparecen en las alertas individuales, lo que proporciona visibilidad sobre cómo se desarrolla la actividad en lugar de depender de un único punto de fallo.

Preguntas frecuentes