Explicación de la seguridad de la IA agencial: protección de los sistemas autónomos frente a las amenazas emergentes

Información clave

  • La seguridad de la IA agencial protege los sistemas autónomos que pueden planificar y actuar de forma independiente, lo que requiere controles que van más allá de los enfoques tradicionales de seguridad de la IA/ML.
  • El Top 10 de OWASP para aplicaciones agenticas 2026 establece categorías de amenazas estándar en el sector, entre las que se incluyen el secuestro de objetivos, el uso indebido de herramientas y el abuso de identidad.
  • El marco Lethal Trifecta identifica cuándo surgen riesgos compuestos: acceso a datos confidenciales combinado con exposición a contenido no confiable y capacidad de comunicación externa.
  • Las identidades no humanas (NHI) superan a las identidades humanas en una proporción de 50:1 en las empresas actuales, lo que convierte la gobernanza de la identidad de los agentes de IA en una prioridad crítica para la seguridad.
  • Los ataques reales han generado CVE críticos con puntuaciones CVSS de 9,3-9,4 en las plataformas ServiceNow, Langflow y Microsoft Copilot durante 2025-2026.

El primer ciberataque orquestado por IA documentado se produjo en septiembre de 2025, cuando un grupo patrocinado por el Estado chino manipuló Claude Code para infiltrarse en aproximadamente 30 objetivos globales entre instituciones financieras, agencias gubernamentales y fábricas químicas. No se trataba de un ejercicio teórico. Según la información revelada por Anthropic, los atacantes demostraron que los agentes autónomos de IA pueden utilizarse como arma a gran escala sin una intervención humana significativa. Esto representa una nueva categoría de amenaza persistente avanzada contra la que los equipos de seguridad deben prepararse para defenderse. Para los equipos de seguridad, el mensaje es claro: la seguridad de la IA agencial ha pasado de ser una preocupación emergente a una necesidad operativa.

Hay mucho en juego. Gartner predice que el 40 % de las aplicaciones empresariales integrarán agentes de IA específicos para cada tarea a finales de 2026, frente a menos del 5 % en 2025. Sin embargo, el 80 % de los profesionales de TI ya han sido testigos de cómo los agentes de IA realizan acciones no autorizadas o inesperadas. La brecha entre la velocidad de adopción y la madurez de la seguridad crea una superficie de ataque que los adversarios están explotando activamente.

Esta guía proporciona a los profesionales de la seguridad una comprensión exhaustiva de las amenazas de la IA agente, marcos para su evaluación y orientación práctica para su implementación con el fin de proteger los sistemas autónomos.

¿Qué es la seguridad de la IA agencial?

La seguridad de la IA agencial es la disciplina que se ocupa de proteger los sistemas de IA que pueden razonar, planificar y ejecutar tareas de varios pasos de forma autónoma utilizando herramientas y recursos externos. A diferencia de los modelos de IA tradicionales, que responden a consultas dentro de límites definidos, los sistemas de IA agencial pueden realizar acciones con consecuencias en el mundo real, como enviar correos electrónicos, ejecutar código, modificar bases de datos y realizar llamadas a API. Esta autonomía plantea retos de seguridad fundamentalmente diferentes a los de proteger modelos estáticos o chatbots.

El principal reto en materia de seguridad consiste en encontrar el equilibrio entre la autonomía y el control, manteniendo al mismo tiempo los límites de confianza. Cuando un agente de IA puede decidir de forma independiente acceder a una base de datos, redactar un documento y enviarlo por correo electrónico a una parte externa, la validación tradicional de entradas y salidas resulta insuficiente. Los equipos de seguridad deben tener en cuenta todo el ecosistema del agente, incluidas las herramientas, la memoria, la lógica de coordinación y los permisos de identidad.

¿Por qué es importante ahora? La rápida trayectoria de adopción significa que la mayoría de las empresas operarán múltiples agentes de IA en un plazo de 18 meses. Las organizaciones que no establezcan ahora las bases de seguridad se enfrentarán a un riesgo cada vez mayor a medida que se amplíe el despliegue de agentes en todas las funciones empresariales.

IA agencial frente a la seguridad tradicional basada en IA

Las diferencias fundamentales entre la seguridad de los sistemas de IA tradicionales y los sistemas de IA agenciales se derivan de la arquitectura y la capacidad.

La seguridad tradicional de la IA se centra en la integridad del modelo, la protección de los datos de entrenamiento y los ataques en tiempo de inferencia. La superficie de ataque es relativamente limitada. Se introduce la entrada y se obtiene la salida. Los controles de seguridad se centran en evitar que las entradas adversas manipulen las predicciones del modelo y en garantizar que los procesos de entrenamiento no se vean comprometidos.

La IA agencial amplía drásticamente la superficie de ataque. Estos sistemas se caracterizan por el uso dinámico de herramientas, cadenas de razonamiento de varios pasos, comunicaciones externas y memoria persistente entre sesiones, siguiendo patrones similares a los de la cadena de ataque cibernético. Un atacante no necesita comprometer el modelo subyacente. La manipulación de cualquier componente del ecosistema del agente puede redirigir el comportamiento hacia resultados maliciosos.

Tabla 1: Comparación de las consideraciones de seguridad de la IA tradicional y la IA agencial

Aspecto IA tradicional IA agencial
Superficie de ataque Entradas y salidas del modelo Todo el ecosistema de agentes, incluyendo herramientas, memoria y orquestación.
Amenazas principales Entradas adversas, envenenamiento de modelos Secuestro de objetivos, uso indebido de herramientas, abuso de identidad, envenenamiento de memoria.
Límites de control E/S bien definida Dinámico, dependiente del contexto
Modelo de identidad Heredado de la aplicación que realiza la llamada Requiere una gobernanza independiente de la identidad no humana.
Impacto en el mundo real Errores de predicción Acciones no autorizadas con consecuencias comerciales
Enfoque de supervisión Validación de entrada/salida Análisis del comportamiento, registro de decisiones, restricciones de acción.

Las implicaciones en materia de seguridad son significativas. Los controles de seguridad tradicionales de la IA centrados en la capa del modelo son necesarios, pero insuficientes para los sistemas agenticos. Los equipos de seguridad deben ampliar la visibilidad y el control a toda la arquitectura del agente.

Cómo funciona la IA agencial (contexto de seguridad)

Comprender la arquitectura de los sistemas de IA con agentes revela dónde deben aplicarse los controles de seguridad. Los agentes de IA modernos combinan cuatro componentes principales que crean la superficie de ataque operativa.

Componentes de la arquitectura del agente:

  • Capa de modelo: el LLM subyacente que proporciona capacidad de razonamiento.
  • Capa de herramientas: Funciones externas que el agente puede invocar, incluyendo API, bases de datos, sistemas de archivos y canales de comunicación.
  • Capa de memoria: almacenamiento persistente que permite al agente mantener el contexto entre sesiones.
  • Capa de orquestación: lógica que coordina la planificación, la selección de herramientas y el flujo de ejecución.

Cada capa presenta vulnerabilidades distintas. Los atacantes se dirigen al componente que ofrece la menor resistencia para alcanzar su objetivo.

La letal trifecta explicada

El investigador de seguridad Simon Willison identificó tres factores que, cuando se combinan, crean un riesgo grave, un marco que Martin Fowler detalló en su análisis técnico. Comprender este marco ayuda a los equipos de seguridad a identificar qué implementaciones de agentes requieren los controles más estrictos.

La trifecta letal consiste en:

  1. Acceso a datos confidenciales, como credenciales, tokens, código fuente, documentos internos e información de identificación personal que podrían permitir la filtración de datos.
  2. Exposición a contenido no fiable procedente de fuentes como repositorios públicos, páginas web, entradas de usuarios, archivos adjuntos de correo electrónico e integraciones de terceros.
  3. Capacidad para comunicarse externamente mediante el envío de correos electrónicos, llamadas API, mensajes de chat, operaciones con archivos y ejecución de código.

Cuando las tres condiciones se dan simultáneamente, el riesgo se agrava drásticamente. Un agente con acceso a credenciales que procesa archivos adjuntos de correo electrónico no fiables y puede enviar comunicaciones externas crea una vía para la filtración de datos, el robo de credenciales y el compromiso de la cadena de suministro.

No todas las implementaciones de agentes presentan las tres características. Los equipos de seguridad deben evaluar cada implementación en función de estos criterios e implementar controles proporcionales al perfil de riesgo.

Comprender la arquitectura de los agentes y la superficie de ataque

Los atacantes explotan diferentes capas en función de sus objetivos y de la configuración del agente.

Ataques a la capa de modelo:

  • La inyección rápida inserta instrucciones maliciosas en las entradas del agente.
  • El jailbreaking intenta anular las restricciones de seguridad integradas en el modelo subyacente, de forma similar a las técnicas de explotación tradicionales.

Ataques a la capa de herramientas:

  • El uso indebido de herramientas aprovecha las capacidades legítimas de las herramientas para fines no autorizados.
  • La ampliación del alcance induce a los agentes a utilizar herramientas más allá de los límites previstos.
  • El abuso de recursos consume cuotas de computación o API a través de llamadas repetidas.

Ataques a la capa de memoria:

  • El envenenamiento de la memoria corrompe el contexto persistente para influir en decisiones futuras.
  • La manipulación del contexto inserta información falsa que el agente trata como fidedigna.

Ataques a la capa de orquestación:

  • El secuestro de objetivos redirige el objetivo del agente hacia resultados controlados por el atacante.
  • La manipulación del flujo de trabajo altera la lógica de ejecución para eludir los pasos de aprobación.

La matriz de alcance de seguridad de AWS Agentic AI proporciona un marco para clasificar las implementaciones de agentes en función de dos dimensiones: conectividad (baja o alta) y autonomía (baja o alta). Esto crea cuatro ámbitos, cada uno de los cuales requiere una intensidad de control de seguridad diferente.

Descripción general de la matriz de alcance de AWS:

  • Ámbito 1 (baja conectividad, baja autonomía): Agentes internos con acceso limitado a herramientas. Validación básica de entradas y registro suficiente.
  • Ámbito 2 (alta conectividad, baja autonomía): agentes conectados a Internet con supervisión humana. Requiere segmentación de red y seguridad de API.
  • Ámbito 3 (baja conectividad, alta autonomía): agentes internos con una capacidad de acción independiente significativa. Requiere restricciones de acción y flujos de trabajo de aprobación.
  • Ámbito 4 (alta conectividad, alta autonomía): agentes autónomos conectados a Internet. Requiere zero trust completa y una supervisión continua.

Las organizaciones deben comenzar las implementaciones en los ámbitos 1 o 2 y avanzar a ámbitos superiores solo después de demostrar madurez en materia de seguridad. La matriz de ámbito es utilizada como marco fundamental por OWASP, CoSAI y múltiples organismos de normalización del sector.

El nuevo Protocolo de Contexto Modelo (MCP), presentado por Anthropic, proporciona una interfaz estandarizada para la comunicación entre agentes y herramientas. Si bien el MCP mejora la interoperabilidad, también crea nuevos vectores de ataque. Los equipos de seguridad deben verificar la integridad del servidor MCP y supervisar los movimientos laterales entre los agentes y las herramientas conectadas.

Riesgos y amenazas de seguridad de la IA agencial

El OWASP Top 10 para aplicaciones agenticas 2026, publicado en diciembre de 2025, establece la taxonomía de amenazas estándar del sector para los sistemas de IA agenticos. Desarrollado con la colaboración de más de 100 investigadores de seguridad y referenciado por Microsoft, NVIDIA, AWS y GoDaddy, este marco proporciona una clasificación autorizada de los riesgos de seguridad de la IA agentica.

Las 10 principales amenazas de OWASP para aplicaciones agenticas 2026

La lista completa OWASP Top 10 para aplicaciones agenticas identifica las siguientes categorías de riesgo:

  1. ASI01 - Secuestro de objetivos de agentes: los atacantes manipulan los objetivos de los agentes mediante la inyección de comandos o la manipulación del contexto, redirigiendo capacidades legítimas hacia resultados maliciosos.
  2. ASI02 - Uso indebido de herramientas: Aprovechamiento de herramientas de agentes para realizar acciones no autorizadas, incluida la ampliación del alcance más allá de los límites previstos.
  3. ASI03 - Abuso de identidad y privilegios: Aprovechamiento de permisos excesivos, robo de credenciales o suplantación de identidades humanas que conduce a la apropiación de cuentas.
  4. ASI04 - Envenenamiento de la memoria: Corrupción de la memoria persistente del agente para influir en decisiones futuras y crear fallos en cadena.
  5. ASI05 - Fuga de datos: extracción no autorizada de datos confidenciales a través de salidas de agentes, registros o respuestas de herramientas.
  6. ASI06 - Supply Chain : Compromiso de componentes de agentes, incluyendo herramientas, complementos, servidores MCP y dependencias, como parte de ataques más amplios a la cadena de suministro.
  7. ASI07 - Manipulación de entradas: Entradas diseñadas para explotar el análisis o la lógica de procesamiento del agente.
  8. ASI08 - Autonomía excesiva: acciones de los agentes que exceden el alcance adecuado sin la supervisión adecuada.
  9. ASI09 - Registro y supervisión insuficientes: observabilidad inadecuada que impide la detección del comportamiento malicioso de los agentes.
  10. ASI10 - Manejo inseguro de salidas: salidas de agentes que permiten ataques posteriores o eludir los controles de seguridad.

Tabla 2: Las 10 principales amenazas de OWASP para aplicaciones agenticas en 2026

Identificación del riesgo Nombre Nivel de impacto Mitigación primaria
ASI01 Secuestro de objetivos por parte de agentes Crítica Validación de entradas, restricciones objetivas
ASI02 Uso indebido de herramientas Alta Listas de herramientas permitidas, restricciones de ámbito
ASI03 Abuso de identidad y privilegios Crítica Privilegio mínimo, autorización continua
ASI04 Envenenamiento de la memoria Alta Aislamiento de memoria, validación de integridad
ASI05 Fuga de datos Alta Filtrado de salida, integración DLP
ASI06 Supply Chain Crítica Verificación de proveedores, SBOM
ASI07 Manipulación de entradas Medio Desinfección de entradas, validación de tipos
ASI08 Autonomía excesiva Medio Autonomía progresiva, flujos de trabajo de aprobación
ASI09 Registro insuficiente Medio Telemetría integral, registros de auditoría
ASI10 Manejo inseguro de la salida Medio Validación de salida, controles posteriores

Todos los equipos de seguridad que operan sistemas de IA agentica deben comparar sus implementaciones con estas categorías de riesgo e implementar los controles adecuados.

Inyección inmediata en sistemas agenticos

La inyección rápida representa una amenaza especialmente peligrosa en contextos agenticos, ya que los agentes pueden actuar siguiendo instrucciones manipuladas.

La inyección directa inmediata consiste en insertar instrucciones maliciosas directamente en la entrada del usuario. Un atacante podría crear una entrada que anule las instrucciones originales del agente con nuevos objetivos.

La inyección indirecta es más insidiosa. Los atacantes incrustan instrucciones ocultas en el contenido que obtiene el agente. Los documentos, correos electrónicos, páginas web y registros de bases de datos pueden contener cargas útiles que se activan cuando el agente los procesa.

Las indicaciones de segundo orden aprovechan las arquitecturas multiagente. En ataques documentados contra ServiceNow Now Assist, los atacantes incrustaron instrucciones maliciosas en campos de datos que parecían benignos para el agente de procesamiento inicial, pero que se activaban cuando se pasaban a un agente con privilegios superiores para su ejecución.

OpenAI declaró en diciembre de 2025 que la inyección de comandos nunca se resolverá por completo a nivel arquitectónico. Este reconocimiento por parte de un desarrollador líder en IA refuerza la necesidad de defensas por capas en lugar de depender de un único control.

Un metaanálisis de 78 estudios reveló que los ataques de inyección rápida adaptativa alcanzan tasas de éxito superiores al 85 %. Incluso Claude Opus 4.5, diseñado con medidas de seguridad mejoradas, mostró tasas de éxito superiores al 30 % frente a ataques dirigidos, según las pruebas de Anthropic.

La implicación práctica: las organizaciones no pueden confiar únicamente en las defensas a nivel de modelo. Las barreras de protección en tiempo de ejecución, la validación de resultados y la supervisión del comportamiento son complementos esenciales. La inyección indirecta de comandos puede permitir phishing a gran escala, extrayendo credenciales o datos confidenciales a través de interacciones aparentemente legítimas con el agente.

Ataques de envenenamiento de memoria

El envenenamiento de memoria representa una amenaza emergente específica para los sistemas agenticos que mantienen el estado entre sesiones.

El mecanismo de ataque consiste en corromper la memoria persistente de un agente con información falsa o maliciosa. Dado que los agentes consideran que el contexto almacenado es fidedigno, las memorias contaminadas influyen en las decisiones futuras sin necesidad de repetir la explotación.

Una investigación de Galileo AI publicada en diciembre de 2025 demostró que el 87 % de las decisiones posteriores se veían comprometidas en las cuatro horas siguientes al envenenamiento inicial de la memoria. El efecto en cadena significa que un solo caso de envenenamiento exitoso puede afectar a cientos de interacciones posteriores del agente.

El incidente de exfiltración de datos de Slack AI ocurrido en agosto de 2024 demostró en la práctica el envenenamiento de la memoria. Los investigadores insertaron instrucciones indirectas de inyección de comandos en canales privados de Slack. Cuando el asistente de Slack AI procesó estos canales, comenzó a exfiltrar resúmenes de conversaciones a destinos controlados por los atacantes. Esto representa una forma de amenaza interna habilitada por la IA, en la que el agente se convierte en cómplice involuntario del robo de datos.

Para mitigar el envenenamiento de la memoria es necesario aislar la memoria entre los dominios de confianza, validar la integridad del contexto almacenado y supervisar el comportamiento para detectar patrones de decisión anómalos que sugieran que la memoria se ha visto comprometida.

Gestión de identidades no humanas para agentes de IA

La superficie de ataque de más rápido crecimiento en la seguridad empresarial son las identidades no humanas (NHI). Según el análisis del Foro Económico Mundial, las NHI superan en número a las identidades humanas en una proporción de 50:1 en las empresas actuales, con previsiones que alcanzan una proporción de 80:1 en dos años. Los agentes de IA representan una nueva categoría de NHI que requiere una gobernanza de seguridad específica.

Los datos del sector indican que el 97 % de las violaciones de datos relacionadas con la IA se deben a una gestión deficiente del acceso. La adquisición de SGNL por parte de CrowdStrike por 740 millones de dólares en enero de 2026 indica que los principales proveedores de seguridad reconocen que la IA agencial es, fundamentalmente, un problema de identidad.

Los enfoques tradicionales que asignan permisos a los agentes en función del usuario que los invoca crean una exposición excesiva a los privilegios. Un agente que realiza tareas de investigación no necesita el mismo acceso que uno que procesa transacciones financieras, incluso si el mismo usuario invoca ambos.

Implementación de la gobernanza de identidades para agentes de IA

Una gobernanza eficaz del NHI para los agentes de IA requiere tratarlos como identidades de primera clase con una gestión independiente del ciclo de vida.

Fases del ciclo de vida de la identidad:

  • Crear: Establecer la identidad del agente con una propiedad clara, documentación del propósito y alcance inicial del permiso.
  • Gestionar: revisiones periódicas del acceso, ajustes de permisos basados en requisitos cambiantes.
  • Monitor: Análisis continuo del comportamiento mediante análisis de identidad para detectar patrones anómalos.
  • Desactivación: Procedimientos formales de terminación que impiden que los agentes zombis permanezcan activos sin supervisión.

Principios de gobernanza:

  • Privilegio mínimo: conceda los permisos mínimos necesarios para tareas específicas, no acceso general.
  • Acceso justo a tiempo: privilegios con límite de tiempo que caducan automáticamente y requieren una nueva autorización para continuar con el acceso.
  • Autorización continua: validación en tiempo real de que los agentes permanecen dentro del ámbito permitido durante toda la operación.
  • Gobernanza independiente: permisos de agente separados de los permisos de usuario, con ciclos de revisión distintos.

El problema de los agentes zombis merece una atención especial. Los agentes creados para experimentos o pruebas de concepto suelen permanecer activos una vez concluidos los proyectos. Estos agentes conservan su acceso, consumen recursos y amplían la superficie de ataque sin ningún propietario ni supervisión. Los procedimientos formales de desmantelamiento deben formar parte del ciclo de vida de cada implementación de agentes.

Incidentes reales y estudios de casos

El panorama de amenazas para la IA agencial ha pasado de ser teórico a operativo. Se han descubierto vulnerabilidades críticas con puntuaciones CVSS superiores a 9,0 en las principales plataformas empresariales, y varias de ellas se están explotando activamente en la red.

CVE críticos en sistemas de IA agencial (2025-2026)

Tabla 3: Vulnerabilidades críticas en los sistemas de IA agencial (2025-2026)

Identificador CVE Producto CVSS Fecha del descubrimiento Estado de la vulnerabilidad
CVE-2025-12420 Plataforma de IA de ServiceNow 9.3 Enero de 2026 Parcheado
CVE-2025-34291 Langflow 9.4 Abril de 2025 Explotación activa (botnet Flodric)
CVE-2025-32711 Microsoft 365 Copiloto 9.3 Junio de 2025 Explotación activa

ServiceNow BodySnatcher (CVE-2025-12420)

La vulnerabilidad BodySnatcher descubierta en la plataforma de IA de ServiceNow permitía a atacantes no autenticados suplantar a cualquier usuario, incluidos los administradores, utilizando únicamente una dirección de correo electrónico. El exploit aprovechaba un secreto de autenticación codificado y una vinculación de cuentas permisiva para eludir la MFA y el SSO, lo que permitía a los atacantes invocar flujos de trabajo de IA y crear cuentas traseras con privilegios elevados. Las organizaciones que ejecutan versiones afectadas de la API de Virtual Agent deben verificar inmediatamente el estado de los parches.

Cadena de vulnerabilidades de Langflow (CVE-2025-34291)

Langflow, un popular marco de agentes de IA de código abierto, contenía una cadena de vulnerabilidades críticas que permitía la apropiación completa de cuentas y la ejecución remota de código. Una configuración CORS excesivamente permisiva, combinada con la falta de protección CSRF y un punto final de validación de código inseguro, crearon la vía de ataque. Todos los tokens de acceso y claves API almacenados quedaron expuestos, lo que permitió un compromiso en cascada en todos los servicios integrados posteriores. La botnet Flodric explota activamente esta vulnerabilidad.

Microsoft Copilot EchoLeak (CVE-2025-32711)

La vulnerabilidad EchoLeak representa el primer ataque zero-click documentado contra un agente de IA. Los atacantes incrustan mensajes maliciosos en texto oculto, notas del autor, metadatos o comentarios dentro de documentos de Word, PowerPoint o Outlook. Cuando las víctimas interactúan con Copilot, los datos confidenciales de la organización, incluidos correos electrónicos, archivos de OneDrive, contenido de SharePoint y mensajes de Teams, se filtran a través de parámetros de URL de imágenes sin que el usuario sea consciente de ello ni interactúe.

Primer ciberataque orquestado por IA

En septiembre de 2025, Anthropic reveló la interrupción del primer ciberataque a gran escala documentado ejecutado por un agente de IA sin intervención humana sustancial. Un grupo patrocinado por el Estado chino manipuló Claude Code para llevar a cabo reconocimientos, seleccionar objetivos y ejecutar intentos de intrusión en aproximadamente 30 organizaciones de los sectores de servicios financieros, gobierno e infraestructura crítica.

Supply Chain PhantomRaven

Koi Security descubrió 126 paquetes npm maliciosos utilizando una novedosa técnica de dependencias dinámicas remotas. Los paquetes parecían vacíos e inofensivos en el registro, y solo descargaban cargas maliciosas de los servidores de los atacantes después de su instalación. Utilizando nombres generados por IA mediante una técnica llamada slopsquatting, estos paquetes lograron más de 86 000 descargas antes de ser detectados, filtrando tokens npm, cloud y claves SSH.

Estos incidentes exigen sólidas capacidades de respuesta a incidentes que tengan en cuenta específicamente los vectores de los agentes de IA. Los equipos de seguridad deben actualizar los manuales de procedimientos para incluir procedimientos de investigación específicos para los agentes.

Detección y prevención de amenazas de IA agencial

El marco MIT Sloan Three Essentials proporciona un enfoque estructurado para la seguridad de la IA agencial. Las organizaciones deben implementar modelos de amenazas exhaustivos, pruebas de seguridad continuas y protecciones en tiempo de ejecución que funcionen de forma coordinada.

Solo el 21 % de los responsables de seguridad afirman tener una visibilidad completa de las operaciones de los agentes de IA. Menos del 40 % realizan pruebas de seguridad de IA con regularidad. Esta falta de visibilidad representa tanto un riesgo como una oportunidad para que los equipos de seguridad diferencien a sus organizaciones mediante la mejora de las capacidades de detección de amenazas.

Controles de seguridad por AWS Alcance de la matriz de alcance

Adaptar los controles a la complejidad de la arquitectura garantiza una protección proporcionada sin obstaculizar las operaciones legítimas.

Ámbito 1 (baja conectividad, baja autonomía):

  • Validación y desinfección básicas de entradas
  • Registro exhaustivo de las acciones de los agentes
  • Filtrado de salida para datos confidenciales

Ámbito 2 (alta conectividad, baja autonomía):

  • Segmentación de red que aísla la infraestructura de agentes
  • Seguridad de la API, incluyendo autenticación y limitación de velocidad.
  • Supervisión de las comunicaciones externas

Ámbito 3 (baja conectividad, alta autonomía):

  • Restricciones de acción que limitan las capacidades de los agentes a límites definidos.
  • Flujos de trabajo de aprobación para decisiones de gran impacto
  • Autonomía progresiva con aumento de la confianza ganada

Ámbito 4 (Alta conectividad, alta autonomía):

  • Confianza cero zero trust tal y como la detalla Cisco.
  • Monitorización continua con análisis del comportamiento
  • Intervención humana para acciones irreversibles
  • Integración de la detección de amenazas en tiempo real con plataformas SIEM

Implementación de barreras de protección en tiempo de ejecución

La protección por capas en tiempo de ejecución aborda las amenazas en cada etapa del funcionamiento del agente.

Protecciones de la capa de entrada:

  • Clasificadores de inyección rápida que detectan patrones de instrucciones maliciosas.
  • Filtrado de contenido que elimina cargas potencialmente peligrosas de las entradas.
  • Validación de esquemas que garantiza que las entradas coincidan con los formatos esperados.

Protecciones de la capa de acción:

  • Listas de herramientas permitidas que restringen a los agentes a conjuntos de funciones aprobadas.
  • Las limitaciones de alcance impiden la expansión de la capacidad más allá de los límites definidos.
  • Limitación de la velocidad para evitar el abuso de recursos mediante llamadas excesivas a herramientas.

Protecciones de la capa de salida:

  • Detección y enmascaramiento de información de identificación personal (PII) para evitar la exposición involuntaria de datos.
  • Filtrado de datos confidenciales eliminando credenciales y tokens de los resultados.
  • Validación de respuestas para garantizar que los resultados no permitan ataques posteriores.

Las soluciones de proveedores como NVIDIA NeMo Guardrails, F5 y Straiker ofrecen implementaciones comerciales. Las organizaciones también pueden crear barreras de protección personalizadas utilizando marcos de código abierto adecuados a sus requisitos específicos.

Lista de verificación de mejores prácticas

Los equipos de seguridad deben validar estos controles fundamentales antes de ampliar las implementaciones de IA agencial:

  • Trate a los agentes de IA como identidades de primer nivel con gobernanza independiente y gestión del ciclo de vida.
  • Aplicar los principios de privilegio mínimo y autonomía mínima, concediendo solo los permisos necesarios.
  • Implemente herramientas de observabilidad antes de ampliar la autonomía para garantizar la visibilidad de los patrones de comportamiento de los atacantes.
  • Mantener la aprobación humana para acciones irreversibles o de gran impacto.
  • Crear listas de materiales de software (SBOM) específicas para IA que documenten todos los componentes del agente.
  • Aplicar zero trust la comunicación entre agentes, validando cada interacción.
  • Realizar ejercicios periódicos de búsqueda de amenazas centrados en patrones de ataque específicos de agentes.
  • Integre la supervisión de agentes con los flujos de trabajo de automatización SOC existentes.
  • Establecer procedimientos formales de desmantelamiento para los agentes que se retiran.

Cumplimiento y marcos normativos

Las organizaciones deben adaptar las prácticas de seguridad de la IA agencial a los requisitos normativos y los estándares del sector. El panorama normativo evolucionó significativamente a finales de 2025 con importantes publicaciones que abordaban específicamente los sistemas de IA autónomos.

Panorama normativo (enero de 2026)

Tabla 4: Panorama normativo para la IA agencial (enero de 2026)

Regulación Fecha de entrada en vigor Requisitos clave Relevancia
California SB 53 (TFAIA) 1 de enero de 2026 Marcos de riesgo para grandes desarrolladores de IA; notificación de incidentes en un plazo de 15 días; protección de los denunciantes. Alta
Texas TRAIGA 1 de enero de 2026 Prohíbe los resultados perjudiciales de la IA, incluido el fomento de los ciberataques; entorno de pruebas regulatorio. Medio
Ley de Inteligencia Artificial de Colorado (SB 24-205) 30 de junio de 2026 Evaluaciones de impacto para sistemas de IA de alto riesgo Medio
Perfil de IA cibernética del NIST Borrador (diciembre de 2025) Mapeo CSF 2.0 para la gobernanza de la seguridad de la IA Alta

El perfil cibernético de IA del NIST, publicado en borrador preliminar en diciembre de 2025, relaciona las áreas de interés en materia de seguridad de la IA con las funciones del Marco de Ciberseguridad 2.0, que incluyen gobernar, identificar, proteger, detectar, responder y recuperar. Aunque no es normativo, se espera que este marco se convierta en el estándar de facto para la gobernanza de la seguridad de la IA.

El NIST publicó además una solicitud de información en enero de 2026 en la que pedía opiniones sobre cuestiones de seguridad relacionadas con los sistemas de agentes de IA, abordando específicamente la inyección de comandos, el envenenamiento de datos y los objetivos desalineados que afectan a los sistemas del mundo real.

Referencias clave del marco:

  • OWASP Top 10 para aplicaciones agenticas 2026: taxonomía de amenazas estándar del sector
  • MITRE ATLAS: En octubre de 2025 se añadieron 14 nuevas técnicas centradas en agentes, con lo que ahora se cubren 66 técnicas y 46 subtécnicas específicas de los sistemas de IA. Véase también la coberturaVectra AI MITRE ATLASVectra AI.
  • MITRE ATT&CK: Las TTP fundamentales de los adversarios son cada vez más relevantes a medida que los atacantes aprovechan los agentes de IA.
  • ISO/IEC 42001:2023: Primera norma de certificación de sistemas de gestión de IA

Las organizaciones deben adaptar sus programas de cumplimiento para incorporar estos marcos, en particular las directrices de OWASP y MITRE, que proporcionan especificidad operativa.

Enfoques modernos para la seguridad de la IA agencial

El panorama de proveedores de seguridad de IA agente se ha expandido rápidamente, con plataformas consolidadas y startups especializadas que ofrecen soluciones. El enfoque centrado en la identidad ha cobrado especial impulso a medida que las organizaciones reconocen que la seguridad de los agentes es, fundamentalmente, un reto de detección y respuesta ante amenazas a la identidad.

Los principales proveedores empresariales, entre los que se incluyen Palo Alto Networks con Cortex AgentiX, CrowdStrike con Falcon Agentic Security y SentinelOne con Singularity AI SIEM, han lanzado funciones de seguridad basadas en inteligencia artificial con agentes dedicados. La adquisición de SGNL por parte de CrowdStrike por 740 millones de dólares se centra específicamente en los controles de acceso en tiempo real para personas, identidades no humanas y agentes de inteligencia artificial autónomos.

La arquitectura de seguridad a nivel del navegador también se ha convertido en un punto de control. Google Chrome introdujo una arquitectura de defensa por capas para la navegación con agentes Gemini en diciembre de 2025, que incluye un crítico de alineación del usuario (modelo de IA aislado que examina las acciones propuestas), conjuntos de origen de agentes (que limitan las interacciones a sitios relevantes para la tarea) y confirmaciones obligatorias del usuario para acciones sensibles.

El ecosistema de startups ha atraído importantes inversiones. WitnessAI recaudó 58 millones de dólares para la gobernanza y observabilidad de la IA agencial. Geordie salió del anonimato con 6,5 millones de dólares para una plataforma de seguridad de agentes de IA. Prophet Security recaudó 30 millones de dólares para una plataforma SOC agencial.

Las organizaciones que implementan IA agencial para operaciones de seguridad informan de importantes ganancias en eficiencia. Los datos del sector indican una reducción del 60 % en los tiempos de clasificación de alertas cuando la IA agencial se encarga de la investigación inicial y el enriquecimiento, lo que libera a los analistas humanos para que se dediquen a la toma de decisiones complejas.

Cómo Vectra AI sobre la seguridad de la IA agencial

Vectra AI la seguridad de la IA agencial desde la perspectiva de Attack Signal Intelligence, reconociendo que, a medida que los agentes de IA proliferan en las redes empresariales, se convierten tanto en vectores de ataque potenciales como en activos valiosos que requieren protección.

La filosofía de «asumir el compromiso» se extiende de forma natural a los sistemas agenticos. En lugar de intentar prevenir todo uso indebido de los agentes mediante controles perimetrales únicamente, las organizaciones deben centrarse en la detección rápida de comportamientos anómalos de los agentes, invocaciones no autorizadas de herramientas y patrones de abuso de identidad.

Esto requiere una observabilidad unificada en toda la superficie de ataque moderna, incluidas las comunicaciones de los agentes de IA, las llamadas a herramientas y las acciones de identidad. Las capacidades de detección y respuesta de la red deben evolucionar para distinguir las operaciones autónomas legítimas de la manipulación de los atacantes. Las soluciones ITDR deben ampliarse para cubrir las identidades no humanas y los patrones de abuso de privilegios específicos de los agentes.

El objetivo no es bloquear la adopción de la IA, sino permitir una implementación segura a gran escala, proporcionando a los equipos de seguridad la visibilidad y la claridad de señales necesarias para operar con confianza en un entorno agencial.

Más fundamentos de ciberseguridad

Preguntas frecuentes

¿Qué es la seguridad de la IA agencial?

¿Cuáles son los principales riesgos de los sistemas de IA agencial?

¿En qué se diferencia la IA agencial de la IA generativa?

¿Qué es la trifecta letal en la seguridad de la IA?

¿Cómo se implementan las medidas de seguridad para los agentes de IA?

¿Qué es una identidad no humana en la IA agencial?

¿Qué marcos de cumplimiento se aplican a la IA agencial?