Rozbicie roszczeń AI: Podejście Miry do odpowiedzialności

Pierwszy raz, kiedy skierowałem zadanie produkcyjne przez Mirę, nie dlatego, że wierzyłem w zdecentralizowaną weryfikację. To dlatego, że byłem zmęczony przepraszaniem. Mieliśmy wewnętrzne narzędzie AI, które generowało podsumowania zgodności dla partii transakcji. Działało szybko. Około 4 do 6 sekund na żądanie. Wyniki pewności ładnie dołączone. Większość utrzymywała się powyżej 0.85. Czyste, uspokajające liczby. Potem pewnego popołudnia pewnie cytowało regulację, która nie istniała. Streszczenie wyglądało na dopracowane. Odnosiło się do numeru klauzuli. Nawet parafrazowało język, który brzmiał na tyle prawnie, aby przejść szybki przegląd. Wynik pewności wynosił 0.93. Ta liczba trafiła do wiadomości Slack. Potem do szkicu e-maila. Jeden bystry analityk potrzebował około 40 minut, aby zdać sobie sprawę, że klauzula była fałszywa. Czterdzieści minut nie brzmi katastrofalnie. Ale zmieniło to, jak ufaliśmy procesowi. Traktowaliśmy wysokie prawdopodobieństwo jako odpowiedzialność. To był kontekst, w którym spróbowałem Miry.
To, co od razu wydawało się inne, to krok dekompozycji. Zamiast traktować wyjście jako jedną bryłę tekstu, Mira podzieliła odpowiedź na dyskretne roszczenia. Każde stwierdzenie faktograficzne stało się czymś, co mogło istnieć samodzielnie. To brzmi mało. Tak nie jest.
Kiedy model mówi: „Regulacja X wymaga Y”, to staje się jednostką. Roszczeniem, które można ocenić niezależnie. W naszym przypadku, 320-słowny streszczenie przekształciło się w 27 oddzielnych roszczeń. Niektóre były miękkimi interpretacjami. Inne były bezpośrednimi odniesieniami faktograficznymi. I nie wszystkie przetrwały. Z tych 27, pięć zostało oznaczonych jako sporne przez inne modele w sieci. Nie odrzucone wprost. Po prostu brakowało konsensusu. Ta niuans miała znaczenie. Oznaczało to, że system nie zniszczył całej odpowiedzi. Izolował niepewność. Latencja wzrosła. Średni czas realizacji wzrósł z około 5 sekund do bliżej 18 lub 22 w zależności od obciążenia sieci. Na początku to było bolesne. Nasz pulpit nawigacyjny wydawał się wolniejszy. Inżynierowie narzekali. Jeden z członków zespołu zapytał, czy „przeciążamy halucynacje.” Ale praktyczna zmiana była oczywista. Przestaliśmy przesyłać całe generowane przez AI streszczenia bez inspekcji. Zaczęliśmy przeglądać konkretnie oznaczone roszczenia. Workflow się zawęził. Zamiast skanować wszystko, skupiliśmy się na nieporozumieniach.
Za tym wszystkim kryła się również warstwa ekonomiczna. Walidatorzy stawiający na poprawność. Przyznam, że byłem sceptyczny wobec tej części. Zachęty brzmią elegancko w białych księgach. W praktyce to, co zauważyłem, było prostsze. Kiedy roszczenia były kwestionowane, pojawiały się widoczne dowody na to, kto się zgadzał, a kto nie. Stworzyło to śledzenie. Nie doskonała prawda. Ale śledzone nieporozumienie. To zmieniło rozmowy wewnętrznie. Zamiast „model uważa, że to jest poprawne”, mogliśmy powiedzieć „to roszczenie nie osiągnęło konsensusu w sieci.” Subtelna różnica. Ogromna zmiana tonu. Mimo to nie jest to bezproblemowe.
Rozbicie odpowiedzi na roszczenia zwiększa powierzchnię. W jednym teście, 500-słowna ocena ryzyka wygenerowała ponad 40 weryfikowalnych jednostek. To oznaczało więcej cykli weryfikacji, więcej obliczeń, wyższe koszty. Średnio widzieliśmy około 2.5x wydatków na przetwarzanie w porównaniu do naszego ustawienia z jednym modelem. Dla budżetu startupu, to nie jest abstrakcyjne.
I są przypadki szczególne. Niektóre złożone interpretacje nie dzielą się czysto na atomowe roszczenia. Kontekst przecieka. Stwierdzenie, które wygląda na faktograficzne w izolacji, może zależeć od ramowania poprzedniego akapitu. Dekompozycja jest potężna, ale to nie magia. Mimo to, zauważyłem coś w sobie po kilku tygodniach. Przestałem pytać: „Czy odpowiedź jest dobra?” Zacząłem pytać: „Które części tej odpowiedzi są obronne?” Ta mentalna zmiana przyszła bezpośrednio z modelu opartego na roszczeniach. Wyniki AI przestały wydawać się autorytatywnymi esejami. Czuły się bardziej jak strukturalne propozycje, każda linia niosąca swój własny ciężar dowodu.
W jednym incydencie produkcyjnym, streszczenie, które wcześniej zostało by wysłane bez zmian, wróciło z trzema niskokonsensownymi roszczeniami z trzydziestu dwóch. Jedno z nich dotyczyło progu raportowania transgranicznego. Okazało się nieco przestarzałe. Nie było tym razem fałszywe. Po prostu przestarzałe. Naprawiliśmy to, zanim opuściło system. Żadna dramatyczna akcja ratunkowa. Po prostu cicha korekta.
Mira nie wyeliminowała halucynacji. Utrudniła ich ukrycie w płynnej prozie. Ujawniła niepewność jako sygnał pierwszej klasy, zamiast ukrywać ją pod wynikiem pewności.
Wciąż zmagam się z kompromisem między szybkością a skrupulatnością. Są chwile, kiedy 20 sekund wydaje się wiecznością. Są przypadki użycia, gdzie konsensus wydaje się przesadny. Ale już nie mylę wewnętrznej pewności modelu z odpowiedzialnością.
Teraz, gdy roszczenie przechodzi, wiem, że przetrwało nieporozumienie. To nie czyni go prawdziwym. Ale utrudnia gładkie kłamstwo.
@Mira - Trust Layer of AI #mira $MIRA 
MIRA
--
--