Datadog et l'Université Carnegie Mellon ont collaboré pour développer ARFBench, une référence dérivée de 63 incidents de production réels. Selon NS3.AI, GPT-5 a montré une performance de pointe parmi les modèles d'IA existants, atteignant un taux de précision de 62,7 %. En comparaison, les experts du domaine ont marqué 72,7 %, tandis qu'un oracle théorique de modèle-expert a atteint une précision de 87,2 %.