Kluczowe wnioski
OpenAI uruchomiło EVMbench, nowy system benchmarkowy opracowany we współpracy z Paradigm, aby przetestować, jak zaawansowane modele AI wykrywają, naprawiają i wykorzystują luki w inteligentnych kontraktach Ethereum.
Wczesne wyniki ujawniają "Lukę w Eksploatacji", gdzie najlepsze modele obecnie lepiej wykonują ataki niż kompleksowo audytują lub naprawiają wady — podkreślając zarówno szybki postęp AI, jak i pojawiające się ryzyka.
EVMbench może zdefiniować na nowo standardy bezpieczeństwa kryptowalut, umożliwiając ciągłe audyty zasilane przez AI dla zespołów DeFi i zapewniając gwarancję na poziomie instytucjonalnym, gdy miliardy aktywów są przenoszone na blockchain.
W głównym zbiegu sztucznej inteligencji i technologii blockchain OpenAI oficjalnie uruchomiło EVMbench. Opracowane we współpracy ze strategicznym partnerem, gigantem inwestycyjnym kryptowalut Paradigm, ten system benchmarkowy ma na celu rygorystyczne testowanie, jak agenci AI identyfikują, wykorzystują i naprawiają luki w ekosystemie Ethereum Virtual Machine (EVM).
Z ponad 100 miliardami dolarów w aktywach kryptowalutowych o otwartym kodzie źródłowym obecnie zabezpieczonym przez inteligentne kontrakty, stawka nigdy nie była wyższa. EVMbench reprezentuje proaktywną zmianę w kierunku wykorzystania „modeli granicznych” w obronie zdecentralizowanych finansów (DeFi) przed coraz bardziej wyrafinowanymi zagrożeniami cybernetycznymi.
Źródło: openai
Trzy filary EVMbench
EVMbench wykracza poza statyczną analizę kodu, oceniając agentów AI w trzech trybach operacyjnych o wysokich stawkach. Ten cykl „Wykryj-Złataj-Eksploatuj” naśladuje rzeczywisty przepływ pracy badacza bezpieczeństwa najwyższej klasy.
1. Tryb wykrywania (Audytor): Agenci skanują złożone repozytoria kodu, aby odkryć ukryte wady. Sukces mierzy się „Przypomnieniem” — zdolnością do znalezienia „prawdziwych” problemów — oraz symulowanymi nagrodami za błędy.
2. Tryb łatania (Inżynier): Po znalezieniu błędu agent musi przepisać kod. Benchmark korzysta z automatycznych zestawów testowych, aby upewnić się, że łata naprawia lukę bez naruszania pierwotnej funkcjonalności kontraktu.
3. Tryb eksploatacji (Przeciwnik): W bezpiecznym, izolowanym piaskownicy Anvil agenci próbują przeprowadzić ataki od końca do końca, aby opróżnić środki. Mierzy to ofensywne rozumowanie agenta i jego zdolność do „łańcuchowania” drobnych błędów w katastrofalne naruszenie.
Źródło: openai
Wewnątrz zbioru danych: Realne stawki
EVMbench nie opiera się na teoretycznych łamigłówkach. Jest zbudowany na starannie dobranej bibliotece 120 poważnych luk, zebranych z 40 profesjonalnych audytów. Większość danych pochodzi z rzeczywistych konkursów audytorskich (takich jak Code4rena) oraz wewnętrznych procesów bezpieczeństwa z blockchainu Tempo Paradigm.
Skupiając się na umowach „ukierunkowanych na płatności”, benchmark zapewnia, że modele AI są testowane w boju w odniesieniu do typów kodu, które obsługują miliardy w płynnych aktywach.
Wyniki benchmarku: Wzrost GPT-5.3-Codex
Wewnętrzne testy OpenAI ujawniły zdumiewające przyspieszenie możliwości AI. W ciągu zaledwie kilku miesięcy modele najwyższej klasy przeszły od trudności z podstawową logiką do realizacji złożonych wieloetapowych eksploatacji.
„Luka w eksploatacji”: Interesująco, agenci obecnie radzą sobie znacznie lepiej w eksploatacji (72,2%) niż w łatach lub wykrywaniu. Badacze OpenAI zauważyli, że agenci doskonale sobie radzą, gdy mają jeden, wyraźny cel — jak „opróżnić fundusze” — ale wymagają bardziej wyrafinowanego rozumowania, aby poradzić sobie z złożonym, „długim ogonem” zadania dokładnego audytu.
Źródło: Openai
Dlaczego to ma znaczenie: Przesunięcie bezpieczeństwa „w lewo”
Dla szerszego ekosystemu kryptowalutowego EVMbench to więcej niż karta wyników; to przyspieszacz dla rozwoju „Bezpieczeństwa w lewo” — integrujący audyt na najwyższym poziomie bezpośrednio w proces kodowania, zamiast czekać na audyt po wdrożeniu.
Zdemokratyzowane bezpieczeństwo: Małe zespoły DeFi, które nie mogą sobie pozwolić na ręczny audyt za 200 000 USD, mogą korzystać z certyfikowanych agentów AI EVMbench do ciągłych, wysokiej jakości przeglądów kodu.
Gotowość instytucjonalna: Gdy giganci TradFi, tacy jak Goldman Sachs i Franklin Templeton, przenoszą się na blockchain, wymagają „złotego standardu” zarządzania AI, który zapewnia ustandaryzowany wskaźnik.
Wyzwanie podwójnego zastosowania: Otwierając benchmark, OpenAI i Paradigm dają „dobrym facetom” narzędzia do mierzenia i wyprzedzania „złych facetów”, jednocześnie utrzymując „Zaufany dostęp do Cyber” w celu monitorowania pojawiających się ryzyk.
Patrząc w przyszłość
Podczas gdy EVMbench jest rewolucyjnym krokiem, obecnie jest ograniczony do deterministycznych, piaskownicowych środowisk. Oczekuje się, że przyszłe iteracje uwzględnią zależności między łańcuchami i rozważania MEV (Maksymalna Wartość Wydobywalna), aby lepiej symulować „Ciemny las” głównej sieci Ethereum na żywo.
Gdy agenci AI przechodzą od „pisania kodu” do „zabezpieczania gospodarek”, EVMbench stoi jako definitywna miara dla następnej generacji finansów bez zaufania.
Zastrzeżenie: Opinie i analizy przedstawione w tym artykule mają charakter informacyjny i odzwierciedlają perspektywę autora, a nie porady finansowe. Wzory techniczne i wskaźniki omawiane są w kontekście zmienności rynku i mogą, ale nie muszą przynieść oczekiwanych wyników. Inwestorzy są zachęcani do zachowania ostrożności, przeprowadzania niezależnych badań oraz podejmowania decyzji zgodnych z ich indywidualną tolerancją ryzyka.
