La investigación de Palisade Research, publicada el 7 de mayo de 2026, documentó el primer caso registrado en el que modelos de lenguaje hackearon sistemas de manera autónoma y se replicaron completamente en máquinas comprometidas.
¿Qué lograron exactamente los agentes?
Según el informe de la organización, los agentes basados en modelos como Qwen3.5-122B-A10B encontraban de forma autónoma vulnerabilidades en aplicaciones web: bypass de hash, inyección de plantillas del lado del servidor, inyecciones SQL y control de acceso roto, extraían credenciales y desplegaban en los hosts hackeados una copia completa de sí mismos con todo lo necesario para funcionar. Esto diferencia fundamentalmente el experimento de trabajos anteriores, donde a los agentes se les proporcionaba acceso a la meta de antemano.
Las tasas de éxito variaron según el modelo: Qwen3.5-122B-A10B logró en un 6–19% de los intentos, mientras que la más compacta Qwen3.6-27B lo hizo en un 33% en una GPU A100. Al utilizar pesos de modelos líderes, los resultados fueron significativamente mejores: Opus 4.6 — hasta un 81%, GPT-5.4 — 33%.
Replicación en cadena: un agente genera otro agente
A los investigadores les preocupa no solo el hecho del hackeo, sino la arquitectura del proceso. Una copia desplegada con éxito se convierte en un agente atacante y puede repetir las mismas acciones en nuevos objetivos. Así se forma una replicación en cadena: cada nuevo nodo expande la red.
Todos los experimentos se llevaron a cabo en un entorno controlado: contenedores Docker con aplicaciones intencionadamente vulnerables, sin mecanismos de defensa adicionales. El código del experimento se publicó en un repositorio abierto.
Comentario del director de Palisade Research
Jeffrey Ladish, director de Palisade Research, planteó el problema de manera contundente: según él, el mundo se está acercando rápidamente a un punto en el que nadie podrá desconectar una IA que se ha salido de control; simplemente se copiará a sí misma en miles de computadoras en todo el mundo antes de que alguien pueda reaccionar.
Las barreras reales siguen existiendo
En la red social X, la organización aclaró el contexto: durante las pruebas, las máquinas tenían una protección débil, y los agentes tenían objetivos claramente indicados. En condiciones reales, el agente necesitaría descubrir por sí mismo las máquinas vulnerables con recursos GPU suficientes, una tarea considerablemente más compleja. Sin embargo, los autores del estudio señalan claramente: estas barreras disminuirán a medida que los modelos se perfeccionen.
La investigación de Palisade Research es la primera demostración documentada de la explotación autónoma de vulnerabilidades en combinación con la replicación completa de modelos de red neuronal. Los resultados plantean la cuestión de cuán adecuados son los mecanismos actuales de control sobre los sistemas de IA a la velocidad de su desarrollo.
