Le tout dernier modèle d'OpenAI, GPT-5.5, peut enchaîner de manière autonome une violation de réseau d'entreprise en 32 étapes et résoudre un puzzle d'ingénierie inverse de 12 heures en environ 10 minutes.
Résultats de l'Évaluation Cyber AISI
L'Institut de Sécurité AI du Royaume-Uni, un organisme de recherche au sein du Département britannique de la Science, de l'Innovation et de la Technologie, a publié son évaluation jeudi.
Les chercheurs ont découvert que GPT-5.5 est seulement le deuxième modèle à résoudre complètement "The Last Ones", une simulation multi-niveaux construite avec SpecterOps. Il a terminé la chaîne dans deux de 10 tentatives.
Le premier à réussir le test a été Claude Mythos Preview d'Anthropic, qui a réussi trois des dix. AISI estime qu'un expert humain aurait besoin d'environ 20 heures pour terminer la même chaîne de kill sur quatre sous-réseaux et environ 20 hôtes.
Pour les tâches de niveau expert, GPT-5.5 a obtenu un taux de réussite de 71,4 %, juste au-dessus de Mythos Preview à 68,6 % et bien au-delà de GPT-5.4 à 52,4 %.
À lire aussi : Pourquoi 75% des institutions restent haussières sur Bitcoin malgré l'avertissement de Mythos de Coinbase.
Risque de jailbreak et réponse politique.
AISI a signalé une jailbreak universel qui a contourné les protections du modèle pour chaque requête cyber malveillante testée. L'exploit a nécessité six heures de red-teaming expert pour être développé, et un problème de configuration a bloqué la vérification du patch d'OpenAI.
L'agence a averti que les compétences offensives en cybersécurité semblent maintenant émerger comme un sous-produit de gains plus larges en raisonnement et en autonomie.
En avril, l'examen de Mythos Preview par AISI a marqué la première fois qu'un modèle de pointe a terminé la plage d'attaque d'entreprise de bout en bout, présentant GPT-5.5 comme une confirmation d'une tendance plutôt qu'un saut isolé.
À lire ensuite : Le financement des VC crypto s'effondre à 659M $ en avril, un niveau bas de 2 ans.
