Datadog și Universitatea Carnegie Mellon au colaborat pentru a dezvolta ARFBench, un benchmark derivat din 63 de incidente reale de producție. Conform NS3.AI, GPT-5 a demonstrat o performanță de top printre modelele AI existente, atingând o rată de acuratețe de 62.7%. În comparație, experții din domeniu au obținut un scor de 72.7%, în timp ce un model teoretic-expert oracle a realizat o acuratețe de 87.2%.
