Claude Mythos löst 32-stufigen AISI-Hack in 6 von 10 Versuchen

Ein neuer Checkpoint von Anthropic's Claude Mythos Preview ist das erste KI-Modell, das beide Cyberangriffssimulationen der britischen Regierung gelöst hat, was neue Fragen zum autonomen Hacking aufwirft.
AISI Berichte über Mythos-Durchbruch
Das AI-Sicherheitsinstitut des Vereinigten Königreichs berichtete am Mittwoch, dass der neuere Mythos-Checkpoint seine 32-stufige Unternehmensnetzwerk-Angriffsreihe, "The Last Ones," in 6 von 10 Versuchen abgeschlossen hat. Die frühere Version hatte nur 3 von 10 geschafft.
Das aktualisierte Modell hat auch "Cooling Tower" geknackt, eine industrielle Steuerungssystemreihe, die kein vorheriges Modell bestanden hat, in 3 von 10 Versuchen.
Der Rivale OpenAI's GPT-5.5 wurde bei derselben Übung getestet. Es löste "Die Letzten" in 3 von 10 Versuchen, schloss jedoch "Kühlturm" nicht ab.
AISI führte die Ranges mit einem Compute-Budget von 100 Millionen Tokens pro Versuch durch, und die Agentur stellte fest, dass die Leistung an dieser Obergrenze weiter anstieg, was darauf hindeutet, dass höhere Budgets die Erfolgsquoten weiter steigern würden.
Siehe auch: Die Blockchain-Woche in Südostasien bringt Ripple, Avalanche, Solana Foundation und K-Pop nach Bangkok
Die Verdopplungszeit schrumpft weiter
AISI verfolgt den Cyber-Fortschritt durch Zeitrahmen-Benchmarks, die messen, wie lange eine autonome Aufgabe ein Modell mit 80 % Zuverlässigkeit abschließen kann. Im November 2025 schätzte die Agentur eine Verdopplungszeit von 8 Monaten. Bis Februar 2026 war diese Zahl auf 4,7 Monate komprimiert, und sowohl Mythos als auch GPT-5.5 haben seitdem den schnelleren Trend übertroffen.
Die Agentur erkannte die Unsicherheit darüber an, ob die neuesten Ergebnisse eine neue Beschleunigung oder einen einmaligen Sprung signalisieren.
Forschung der gemeinnützigen METR, die KI bei Softwareaufgaben anstelle von Cyber-Ranges verfolgt, hat eine ähnliche Zahl von etwa 4,2 Monaten produziert. AISI sagte, dass die Konvergenz den Fall stärkt, dass der Trend echte Fähigkeitsgewinne widerspiegelt und nicht eine Laune eines Bewertungsmoduls.
Das Institut betonte, dass seine Ranges keine aktiven Verteidiger haben, sodass die Ergebnisse zeigen, was Modelle gegen schwach geschützte Netzwerke leisten können, anstatt gegen gehärtete Unternehmenssysteme.
Warum Fähigkeitssteigerungen wichtig sind
Der neuere Mythos-Checkpoint kam nicht mit einer frischen Modellveröffentlichung. AISI verwendete dieselbe Version, die Anthropic letzten Monat mit Project Glasswing, seinem Sicherheitspartnerschaftsprogramm, bereitgestellt hat, nachdem sie einen aktualisierten Build desselben Modells erhalten hatten.
"Bemerkenswerte Fähigkeitssteigerungen erfordern nicht immer neue Modellveröffentlichungen", schrieb das Institut. Das spricht gegen die Annahme, dass Verteidiger sich an die Veröffentlichungszyklen anpassen können.
Anthropic stellte Mythos Preview am 7. April vor und stellte das Modell als Wendepunkt für die Sicherheitsindustrie dar, nachdem es Zero-Day-Fehler in großen Betriebssystemen und Browsern in internen Tests identifiziert hatte. Das Unternehmen sagte, dass es eine breitere Veröffentlichung aufgrund dieser Fähigkeiten zurückgehalten hatte, und die frühere Bewertung von AISI im April kennzeichnete Mythos als einen klaren Fortschritt gegenüber früheren Frontier-Systemen.
Lies Weiter: Die Gemini Space Station wurde nach dem IPO von mehreren Betrugsansprüchen betroffen.