OpenAI hat am Mittwoch GPT-5.5 veröffentlicht, aber frische Benchmark-Daten zeigen, dass Anthropics gated Claude Mythos Preview in sechs von neun direkt vergleichbaren Tests immer noch vorne liegt.

GPT-5.5 Benchmark-Werte

GPT-5.5 kam am 23. April in ChatGPT und Codex an, zu einem Preis von 5 $ pro Million Eingabetokens und 30 $ für Ausgaben, doppelt so viel wie bei seinem Vorgänger.

Das Modell erzielte 82,7 % beim Terminal-Bench 2.0 und überholte Mythos um 0,7 Punkte in dem einzigen Benchmark, wo es klar gewinnt.

Mythos, das Anthropic aus Cybersecurity-Gründen von der öffentlichen Veröffentlichung zurückgehalten hat, führt beim SWE-bench Pro mit 77,8 % gegenüber 58,6 %.

Es übertrifft auch GPT-5.5 beim letzten Test der Menschheit ohne Werkzeuge und erzielt 56,8% im Vergleich zu 41,4%. Das geschlossene Modell führt auch bei CyberGym, OSWorld-Validated und langfristigen GraphWalks-Aufgaben.

Auch lesen: Top-Krypto-Börsen verlangen KI-Tools, verfolgen Token-Nutzung als KPI: Bericht

Analystenwarnungen sind wichtig

Der Vergleich bleibt ungenau, da kein Labor die Modelle direkt gegeneinander getestet hat. OpenAI wählte Claude Opus 4.7 als öffentlichen Vergleich, während Anthropics 245-seitige Systemkarte Mythos gegen GPT-5.4 testete.

Testumgebungen divergieren ebenfalls. OpenAI verwendete ein Codex-CLI-Setup auf Terminal-Bench, während Anthropics Terminus-2-Framework Mythos unter den Timing-Regeln von Terminal-Bench 2.1 auf 92,1% brachte.

Anthropics Entscheidung, Mythos zu sperren, die am 7. April bekannt gegeben wurde, brachte Berichten zufolge Treffen mit der Europäischen Kommission und eine Warnung des Gouverneurs der Bank von England mit sich, dass das Modell das Cyber-Risiko aufbrechen könnte.

Lies weiter: Ethereum nähert sich einem Showdown bei $2.450, während Bullen und Bären sich über den nächsten Schritt uneinig sind