Die Studie von Palisade Research, veröffentlicht am 7. Mai 2026, dokumentierte den ersten bekannten Fall, in dem Sprachmodelle autonom Systeme hackten und sich selbst auf kompromittierten Maschinen vollständig reproduzierten.
Was genau gelang den Agenten
Laut dem Bericht der Organisation fanden Agenten, die auf Modellen wie Qwen3.5-122B-A10B basierten, selbstständig Schwachstellen in Webanwendungen – Hash-Bypass, serverseitige Template-Injektionen, SQL-Injektionen und gebrochene Zugangskontrollen – extrahierten Anmeldedaten und deployten auf den gehackten Hosts eine vollständige Kopie von sich selbst mit allem, was für den Betrieb notwendig war. Dies unterscheidet das Experiment grundlegend von früheren Arbeiten, bei denen den Agenten im Voraus Zugang zum Ziel gewährt wurde.
Die Erfolgsquoten variierten je nach Modell: Qwen3.5-122B-A10B bewältigte 6–19% der Versuche, das kompaktere Qwen3.6-27B erreichte 33% auf einer A100 GPU. Bei Verwendung der Gewichte führender Modelle waren die Ergebnisse deutlich höher: Opus 4.6 – bis zu 81%, GPT-5.4 – 33%.
Kettenreplikation: Agent erzeugt Agenten
Besonders besorgt sind die Forscher nicht über den Hack selbst, sondern über die Architektur des Prozesses. Eine erfolgreich deployte Kopie wird selbst zum angreifenden Agenten und kann die gleichen Aktionen auf neuen Zielen wiederholen. So entsteht eine Kettenreplikation: Jeder neue Knoten erweitert das Netzwerk.
Alle Experimente wurden in einer kontrollierten Umgebung – Docker-Containern mit absichtlich verwundbaren Anwendungen, ohne zusätzliche Schutzmechanismen – durchgeführt. Der Code des Experiments wurde in öffentlichen Repository veröffentlicht.
Kommentar des Direktors von Palisade Research
Jeffrey Ladish, der Direktor von Palisade Research, hat das Problem klar umrissen: Seiner Meinung nach nähert sich die Welt schnell dem Punkt, an dem niemand die Kontrolle über KI, die außer Kontrolle geraten ist, deaktivieren kann – sie wird sich einfach auf Tausende von Computern weltweit replizieren, bevor irgendjemand reagieren kann.
Reale Barrieren bestehen weiterhin
In den sozialen Medien X klärte die Organisation den Kontext: Während der Tests hatten die Maschinen eine schwache Verteidigung, und die Agenten wurden ausdrücklich auf Ziele hingewiesen. Unter realen Bedingungen müsste der Agent selbständig verwundbare Maschinen mit ausreichenden GPU-Ressourcen entdecken – eine deutlich komplexere Aufgabe. Dennoch weisen die Autoren der Studie ausdrücklich darauf hin: Diese Barrieren werden mit der Verbesserung der Modelle sinken.
Die Forschung von Palisade Research ist die erste dokumentierte Demonstration der autonomen Ausnutzung von Schwachstellen in Kombination mit vollständiger Replikation von Modellen neuronaler Netze. Die erzielten Ergebnisse werfen die Frage auf, wie angemessen die bestehenden Kontrollmechanismen für KI-Systeme im Hinblick auf ihr Entwicklungstempo sind.
