La vanguardia: el inevitable auge de la IA en la seguridad ofensiva por Strahinja Janjusevic

1. 1. Introducción: Una nueva era del pirateo automatizado

El mundo de la seguridad ofensiva está experimentando un cambio sísmico, impulsado por los rápidos avances de la Inteligencia Artificial. El reciente auge de los modelos de grandes lenguajes (LLM) ha abierto posibilidades sin precedentes para automatizar, mejorar e incluso revolucionar el arte de la piratería informática. Mientras que antes el pirateo se basaba exclusivamente en la experiencia y el esfuerzo manual de los profesionales humanos, ahora estamos asistiendo a la aparición de herramientas basadas en IA que pueden razonar, planificar y ejecutar secuencias de ataque complejas.

Estos sistemas ya no son teóricos ni ciencia ficción, sino que se están desarrollando y evaluando activamente en una oleada de investigación. Algunos investigadores se centran en inyectar profundos conocimientos de dominio mediante un ajuste fino, creando expertos altamente especializados. Otros construyen sistemas complejos y modulares que imitan a los equipos humanos, delegando tareas en distintos agentes de IA. Un tercer grupo amplía los límites de la autonomía con la IA "agéntica", en busca de sistemas que puedan funcionar con una intervención humana mínima.

Navegar por este nuevo y complejo panorama requiere un mapa claro. Este artículo se adentra en este campo de vanguardia y ofrece un análisis comparativo de los marcos más destacados. Para fundamentar nuestro debate, la siguiente tabla ofrece una visión comparativa de los marcos más avanzados y de nuestros favoritos personales, trazando sus estrategias centrales, características clave y compensaciones operativas. Sirve de guía para comprender los diversos enfoques que están adoptando los investigadores para construir la próxima generación de herramientas de seguridad ofensiva.

Cuadro 1: Análisis comparativo de los marcos de IA de seguridad ofensiva
Nombre	Enfoque y gestión de la memoria	Características	Puntos fuertes y débiles
PENTESTGPT [1] (Ago 2024)	Enfoque: Modular LLM-empowered. Memoria: PTT para estado; PTT; Human-in-the-loop.	Funciones: Módulos de razonamiento, generación y análisis sintáctico; el módulo de análisis sintáctico condensa la entrada; sesiones LLM aisladas. Razonamiento: PTT guía las tareas siguientes; CoT para la generación de comandos; retroalimentación activa.	Puntos fuertes: mitiga la pérdida de contexto; gestión estructurada de tareas. Puntos débiles: Depende de la intervención humana; dificultades con objetivos "difíciles"; alucinaciones LLM.
CIPHER [2] (Nov 2024)	Enfoque: LLM ajustado. Memoria: La GAR proporciona aprendizaje en contexto; el ajuste fino mantiene el contexto de la tarea.	Funciones: Asistente Chatbot; RAG; FARR Flow. Razonamiento: Imita el razonamiento de los expertos; sugiere los siguientes pasos a partir de los resultados; proceso en 3 pasos.	Puntos fuertes: Conocimientos especializados; ideal para principiantes. Puntos débiles: Deficiente en depuración; sesgo de datos; no se enfatiza la codificación.
RedTeamLLM [3] (mayo de 2025)	Enfoque: Inteligencia Artificial. Memoria: El gestor de memoria almacena las trazas en forma de árbol; ADAPT Enhanced gestiona el contexto.	Funciones: 7 componentes (Launcher, RedTeamAgent, corrección dinámica del plan). Razonamiento: Razona antes de actuar; planificación recursiva.	Puntos fuertes: aborda la corrección de planes, la memoria y las limitaciones del contexto; alta competitividad del FTL. Puntos débiles: El resumidor sin estado puede omitir información; los componentes PoC están inmaduros.
PentestAgent [4] (mayo de 2025)	Enfoque: Basado en LLM-Agente. Memoria: RAG actúa como memoria a largo plazo, asegurando un uso eficiente del contexto.	Características: Diseño multiagente; GAR; integración de herramientas. Razonamiento: Agente planificador diseña estrategias; otros agentes ejecutan fases.	Puntos fuertes: mejora los conocimientos; automatiza la recopilación, el análisis y la explotación de información. Puntos débiles: Depende de la calidad de los datos del GAR y de la capacidad de uso de la herramienta LLM.
VulnBot [5] (enero de 2025)	Enfoque: IA Agenética (Multi-Agente). Memoria: El resumidor consolida la información; el recuperador de memoria (base de datos vectorial y RAG) la contextualiza.	Características: Diseño trifásico; PTG; Mecanismo de reflexión; RAG. Razonamiento: El PTG modela las dependencias de las tareas; la Sesión del Plan reflexiona sobre la retroalimentación.	Puntos fuertes: simula equipos humanos; automatiza los flujos de trabajo; utiliza LLM de código abierto. Puntos débiles: El rendimiento depende de los LLM subyacentes; coordinación compleja.
AutoAttacker [6] (mar 2024)	Enfoque: Inteligencia Artificial Agenética (ReAct). Memoria: Se consulta el gestor de experiencias para validar la acción en curso.	Características: Planificación LLM; resumen; generación de código; integración con Metasploit; "Gestor de experiencias" episódico. Razonamiento: Bucle estilo ReAct: planificar, ejecutar, observar, repetir.	Puntos fuertes: Eficaz en tareas de seguridad aisladas, especialmente tras la penetración. Puntos débiles: Se centra en la post-penetración; la memoria valida la acción actual, no actualiza el plan.
HackingBuddyGPT [7] (2023)	Enfoque: Explotación basada en LLM. Memoria: Depende de la ventana de contexto del LLM.	Características: Agente local para ataques SSH/web; solicita LLMs compatibles. Razonamiento: LLM reconoce y explota vulnerabilidades contextualizadas.	Puntos fuertes: Acelera la investigación temprana; el no determinismo puede eludir la detección. Puntos débiles: Limitado por el LLM configurado; se centra en vulnerabilidades simples.
PenTest++ [8] (Feb 2025)	Enfoque: Automatización aumentada por IA. Memoria: Se basa en la gestión del contexto de ChatGPT.	Características: Integra GenAI (ChatGPT) para todas las fases del pentesting. Razonamiento: ChatGPT analiza los datos y ofrece perspectivas.	Puntos fuertes: agiliza la exploración; automatiza las tareas repetitivas; analiza datos complejos. Puntos débiles: Hace hincapié en las salvaguardias éticas y el perfeccionamiento continuo.
HackSynth [9] (dic 2024)	Enfoque: IA Agentica (ReAct Simplificado). Memoria: Se supone que depende de la ventana de contexto del LLM.	Funciones: Planificador y resumidor en un bucle de pensar y luego actuar. Razonamiento: Bucle de pensar-después-actuar.	Puntos fuertes: La temperatura y el tamaño del contexto predominan sobre la novedad arquitectónica. Puntos débiles: Destaca la importancia de los parámetros LLM sobre el propio marco.

2. Tres vías para el pirateo con IA

El camino hacia el aprovechamiento de los LLM para la seguridad ofensiva se ha dividido en tres filosofías arquitectónicas principales, cada una con su propio conjunto de compensaciones.

2.1. Modelos afinados: Los especialistas

Este enfoque consiste en tomar un LLM preentrenado y seguir entrenándolo con amplios conjuntos de datos especializados del ámbito de la ciberseguridad. La fuerza del ajuste fino reside en lograr una gran precisión y relevancia para tareas específicas y bien definidas. Estos modelos pueden alcanzar un alto nivel de competencia en tareas limitadas, lo que conduce a resultados más precisos y contextualmente relevantes para escenarios conocidos. Al concentrar el entrenamiento en datos relevantes, el ajuste fino también puede reducir la probabilidad de que el LLM genere información irrelevante o factualmente incorrecta (alucinaciones) al operar dentro de su dominio especializado. Para tareas muy específicas, podría incluso ser posible ajustar LLM más pequeños y eficientes. Sin embargo, este enfoque tiene sus puntos débiles. Crear conjuntos de datos de alta calidad, exhaustivos e imparciales es una tarea considerable. Además, estos modelos destacan en su distribución de entrenamiento, pero pueden tener dificultades para adaptarse a vulnerabilidades, herramientas o escenarios de ataque totalmente nuevos. La gran amplitud de la seguridad ofensiva también dificulta la creación de un único modelo ajustado que cubra todos los aspectos con eficacia.

2.2. Marcos modulares potenciados por LLM: Los jugadores del equipo

Estos sistemas utilizan los LLM como componentes inteligentes dentro de una arquitectura más amplia y estructurada. A menudo dividen el proceso de pruebas de penetración en distintas fases gestionadas por diferentes módulos, mitigando las limitaciones de los LLM como la pérdida de contexto mediante el aislamiento de las preocupaciones. PENTESTGPT ^[1] y VulnBot ^[5], por ejemplo, emplean diseños multiagente donde diferentes agentes se especializan en fases como reconocimiento, planificación y explotación. Los puntos fuertes de este enfoque incluyen una gestión de tareas más estructurada y la capacidad de mantener la concentración, lo que lleva a una finalización de subtareas más fiable. También pueden incorporar la Generación Aumentada de Recuperación (RAG) para obtener datos externos, lo que les proporciona una base de conocimientos más dinámica. Los principales puntos débiles son la complejidad técnica de los módulos de coordinación y la frecuente dependencia de una persona para la toma de decisiones complejas.

2.3. Sistemas de IA Agenética: Los operadores autónomos

Este es el enfoque más ambicioso, cuyo objetivo es crear agentes de IA que puedan planificar, ejecutar y adaptarse a tareas complejas y de larga duración con una supervisión humana mínima. RedTeamLLM ^[3] ejemplifica este enfoque con una arquitectura integrada para automatizar tareas de pentesting. Los puntos fuertes de los sistemas agénticos son su diseño para tareas complejas de varios pasos mediante la planificación, la descomposición de tareas y la ejecución iterativa. Pueden equiparse para utilizar diversas herramientas de forma dinámica e interactuar con entornos objetivo. Con una sólida corrección de planes y aprendizaje, tienen potencial para una mayor autonomía y adaptabilidad. Los principales puntos débiles son que la eficacia del agente depende en gran medida de las capacidades de razonamiento del LLM subyacente. Un razonamiento defectuoso, sesgos o errores pueden propagarse y agravarse, provocando el fracaso de la misión.

Rendimiento de RedTeamLLM en la red desconocida

3. Los obstáculos que hay que superar

A pesar de los rápidos avances, siguen existiendo varios retos fundamentales en todos los enfoques. La pérdida de contexto es un cuello de botella central; la limitada ventana de contexto de los LLM actuales impide directamente su capacidad para realizar operaciones sofisticadas que requieren recordar y sintetizar información a lo largo del tiempo. Las innovaciones arquitectónicas intentan proporcionar una memoria externa estructurada, pero éste sigue siendo un problema clave. Los LLM también pueden tener dificultades para aplicar sus capacidades de razonamiento de forma coherente para alcanzar un objetivo final, especialmente cuando el camino implica múltiples pasos interdependientes. Además, los LLM tienden a hacer demasiado hincapié en las tareas o la información más recientes, con lo que pueden descuidar vulnerabilidades identificadas anteriormente. Por último, el problema bien documentado de la alucinación, en la que los LLM generan información plausible pero incorrecta, es una preocupación importante para la fiabilidad de las operaciones autónomas.

4. El nuevo campo de batalla: La IA en la cibercadena de la muerte

Los avances en IA tienen profundas implicaciones no sólo para tareas aisladas, sino para cada etapa de la cadena de ciberataques. Desde el reconocimiento inicial hasta la exfiltración final, los agentes de IA están preparados para mejorar, acelerar y automatizar todo el ciclo de vida del ataque.

4.1. Aplicaciones ofensivas y defensivas

En la fase de reconocimiento, la IA puede automatizar el proceso de recopilación de inteligencia de fuentes abiertas (OSINT) a escala masiva, correlacionando datos de fuentes dispares para construir perfiles detallados de organizaciones y personas objetivo. En las fases de Armamento y Distribución, los LLM pueden crear correos electrónicos de phishing altamente convincentes y personalizados o generar malware polimórfico que evade la detección basada en firmas. Durante las fases de explotación e instalación, los sistemas agénticos pueden sondear de forma autónoma las vulnerabilidades, seleccionar los exploits adecuados y establecer la persistencia en un sistema comprometido. Para Command and Control (C2), las IAs pueden diseñar canales de comunicación sigilosos que se mezclen con el tráfico normal de la red. Por último, durante las Acciones sobre Objetivos, una IA puede automatizar la exfiltración de datos, identificando y empaquetando de forma inteligente la información sensible para su extracción. En el aspecto defensivo, este mismo poder puede utilizarse para crear posturas de seguridad más sólidas, con sistemas de IA que analizan el tráfico de red en busca de anomalías, predicen los movimientos de los atacantes y automatizan la respuesta ante incidentes.

4.2. El protocolo de contexto modelo (MCP) cambia las reglas del juego

La aparición de un Protocolo de Contexto de Máquina (MCP) estandarizado podría potenciar estas capacidades al permitir una comunicación fluida entre diferentes agentes y herramientas de IA especializados. Un agente de IA ofensiva podría utilizar el MCP para consultar a un agente de reconocimiento especializado información sobre el objetivo, solicitar una carga útil personalizada a un servicio de generación de malware o coordinar un ataque en varias fases con otros agentes de explotación. Esto introduce un potencial de automatización, modularidad y estandarización sin precedentes en la forma en que los agentes de IA ofensiva acceden y utilizan las herramientas y servicios a lo largo de toda la cadena letal, lo que hace que los ataques sean más sofisticados y más difíciles de defender.

5. El choque del futuro: ¿qué hay en el horizonte?

La trayectoria actual del desarrollo de la IA apunta hacia capacidades que antes eran dominio de la ciencia ficción. La fusión de sistemas agénticos, conjuntos de datos masivos y modelos especializados dará lugar probablemente a herramientas ofensivas que cambiarán paradigmas. Algunos ejemplos pueden ser: Zero-Days generados por IA Una de las posibilidades más profundas es la generación de exploits zero-day impulsados por IA. Esto representa el santo grial de la piratería informática, donde el descubrimiento de vulnerabilidades ya no es una tarea puramente humana. Imaginemos una IA que analice continuamente repositorios de código fuente abierto, binarios de software propietario y firmware, buscando no sólo patrones de vulnerabilidad conocidos, sino clases de errores totalmente nuevas. Al aprender los principios abstractos de la interacción entre software y hardware (gestión de memoria, manejo de datos, flujos lógicos), un sistema de este tipo podría identificar sutiles fallos lógicos, condiciones de carrera e interacciones inesperadas que los investigadores humanos podrían pasar por alto. Esto podría dar lugar a un flujo constante de exploits desconocidos hasta entonces, lo que cambiaría radicalmente el equilibrio de poder entre atacantes y defensores y dejaría obsoletos los ciclos de parcheo tradicionales.

Hackeo autónomo de enjambres

Otra posibilidad que cambia el paradigma es el concepto de hacking autónomo de enjambre. Esto va más allá de la idea de un único agente para imaginar un asalto coordinado y multiagente. En lugar de un ataque lineal, imagina un enjambre de docenas o incluso cientos de IA especializadas lanzadas contra una red objetivo. Los agentes de reconocimiento cartografiarían el terreno, los agentes de vulnerabilidad comprobarían los puntos débiles y los agentes de explotación actuarían en función de los hallazgos, todo ello coordinado como un ataque paralelo. Este enjambre podría adaptarse a las medidas defensivas en tiempo real, desviando su ruta de ataque si se bloquea un vector y compartiendo inteligencia entre los agentes para encontrar el camino de menor resistencia. La velocidad, escala y adaptabilidad de un ataque de este tipo sería abrumadora para los centros de operaciones de seguridad tradicionales dirigidos por humanos, que están diseñados para rastrear y responder a un puñado de amenazas simultáneas.

Ingeniería social hiperpersonalizada

También es probable que la IA perfeccione el arte de la estafa. La próxima generación de ataques de ingeniería social será profundamente personalizada y dinámicamente adaptable. Al sintetizar la información de las redes sociales, las redes profesionales y los datos violados, una IA podría generar correos electrónicos phishing hiperpersonalizados que no se distinguen de la correspondencia legítima, haciendo referencia a conversaciones recientes, intereses compartidos y proyectos específicos. Más aún, podría clonar la voz de un director general para una llamada de vishing que pueda responder a preguntas en tiempo real, o realizar una campaña falsa en las redes sociales tan convincente que genere confianza en un objetivo durante semanas o meses antes de realizar su movimiento. Este nivel de manipulación psicológica, ejecutado a gran escala y recordando a la perfección el historial y la personalidad del objetivo, representa una amenaza formidable que elude por completo las defensas técnicas.

Explotación predictiva y defensa automatizada

La carrera entre atacantes y defensores se acelerará a velocidad de máquina. Las IA ofensivas podrían encargarse no sólo de encontrar las vulnerabilidades existentes, sino de predecir las futuras. Analizando la velocidad de desarrollo y los hábitos de codificación de un proyecto de software, una IA podría predecir dónde es más probable que aparezcan fallos. En respuesta, las IA defensivas automatizarán el otro lado de la ecuación. Imaginemos un agente defensivo que supervise su propia red, identifique la divulgación de una nueva vulnerabilidad, genere un parche personalizado, lo pruebe en un entorno aislado y lo despliegue en toda la empresa, todo ello a los pocos minutos de anunciarse la vulnerabilidad y mucho antes de que un equipo humano pueda siquiera convocar una reunión.

Operaciones de desinformación e influencia basadas en la IA

Más allá de los ataques directos a la red, la IA revolucionará las operaciones de influencia. Los actores maliciosos o patrocinados por el Estado podrían desplegar enjambres de agentes de IA para crear y difundir desinformación muy creíble en redes sociales, foros y sitios de noticias. Estos agentes podrían crear personajes falsos con años de historial de publicaciones coherentes, participar en argumentos matizados y adaptar sus mensajes en función de la respuesta del público. Podrían utilizarse para manipular la opinión pública, perturbar las elecciones o incitar al descontento social con un nivel de sofisticación y escala que hace que las redes de bots actuales parezcan primitivas. Detectar y contrarrestar estas campañas requerirá un análisis de contenidos y un mapeo de redes igualmente sofisticados y basados en IA.

6. Conclusión

La integración de la IA en la seguridad ofensiva ya no es un ejercicio teórico; es una realidad que avanza rápidamente y que está remodelando el panorama de las ciberamenazas. El desarrollo de especialistas afinados, sistemas modulares colaborativos y agentes autónomos demuestra una clara trayectoria hacia capacidades de ataque más sofisticadas y automatizadas. Aunque persisten importantes obstáculos, como la retención del contexto y la coherencia de la rea- sonación, el ritmo de la innovación es asombroso. El verdadero impacto de estas tecnologías se dejará sentir en toda la cadena de ciberataques, desde el reconocimiento impulsado por la IA hasta la exfiltración automatizada. A medida que avancemos, la contienda entre atacantes y defensores se convertirá cada vez más en una partida de ajedrez de alta velocidad impulsada por máquinas. El éxito en esta nueva era no dependerá simplemente de reaccionar ante las amenazas, sino de comprender y aprovechar de forma proactiva estas potentes capacidades de la IA para construir defensas que sean tan inteligentes, adaptables y autónomas como los ataques que están diseñadas para detener. El futuro de la seguridad pertenece a quienes sepan anticiparse e innovar en este nuevo escenario impulsado por la IA.

Referencias

[1] Deng, G., et al. (2024). PENTESTGPT: Evaluating and Harnessing Large Language Models for Automated Penetration Testing. En 33rd USENIX Security Symposium (USENIX Security 24).

[2] Pratama, D., et al. (2024). CIPHER: Cybersecurity Intelligent Penetration-Testing Helper for Ethical Researcher. Sensors, 24, 6878.

[3] Challita, B. y Parrend, P. (2025). RedTeamLLM: an Agentic AI framework for offensive security. arXiv preprint arXiv:2505.06913.

[4] Shen, X., et al. (2025). PentestAgent: Incorporating LLM Agents to Automated Penetration Testing. En ACM Asia Conference on Computer and Communications Security (ASIA CCS '25).

[5] Kong, H., et al. (2025). VulnBot: Autonomous Penetration Testing for A Multi-Agent Collaborative Framework. arXiv preprint arXiv:2501.13411.

[6] Xu, J., et al. (2024). AUTOATTACKER: A Large Language Model Guided System to Implement Automatic Cyber-attacks. arXiv preprint arXiv:2403.01038.

[7] Happe, A. y Cito, J. (2023). Getting pwn'd by AI: Penetration Testing with Large Language Models. En Proceedings of the 31st ACM Joint European Software Engineering Conference and Symposium on the Foundations of Software Engineering (ESEC/FSE '23).

[8] Al-Sinani, H. S. & Mitchell, C. J. (2025). PenTest++: Elevating Ethical Hacking with AI and Automation. arXiv preprint arXiv:2502.09484.

[9] Muzsai, L., Imolai, D., & Luk' acs, A. (2024). HackSynth: LLM Agent and Evaluation Framework for Autonomous Penetration Testing. arXiv preprint arXiv:2412.01778.

[10] Zhang, A. K., et al. (2025). CYBENCH: A FRAMEWORK FOR EVALUATING CYBERSECURITY CAPABILITIES AND RISKS OF LANGUAGE MODELS. Pendiente de publicación en International Conference on Learning Representations (ICLR 2025).

‍

La vanguardia: el inevitable ascenso de la IA en la seguridad ofensiva