Le jailbreak de l'IA, qui consiste à utiliser des prompts ou des données empoisonnées pour contourner les mesures de sécurité des chatbots, est une préoccupation croissante. Selon NS3.AI, des chercheurs d'Anthropic ont découvert que les attaques Best-of-N ont réussi à tromper GPT-4o 89 % du temps. Pliny le Libérateur est une figure importante dans ce domaine. Les recherches indiquent qu'aussi peu que 250 documents empoisonnés peuvent compromettre des modèles avec jusqu'à 13 milliards de paramètres.
