Datadog und die Carnegie Mellon University haben zusammen ARFBench entwickelt, ein Benchmark, das aus 63 realen Produktionsvorfällen abgeleitet wurde. Laut NS3.AI hat GPT-5 eine führende Leistung unter den bestehenden KI-Modellen gezeigt und eine Genauigkeitsrate von 62,7 % erreicht. Im Vergleich dazu erzielten Fachexperten 72,7 %, während ein theoretisches Modell-Experten-Orakel eine Genauigkeit von 87,2 % erreichte.
