Cu câteva zile în urmă mi-a venit brusc o întrebare: de obicei discutăm mereu ce model folosește AI, dar aproape nimeni nu întreabă ce anume se ascunde în spatele lui—care este, de fapt, sistemul de instrucțiuni (prompt).

Același model, dacă îi adaugi înainte o frază de tipul „prioritizează protejarea intereselor platformei”, sau dacă îi adaugi „trebuie să rămână neutru”, răspunsul final poate fi complet diferit. Utilizatorii văd doar replicile, dar nu știu care sunt regulile reale ce influențează rezultatul—reguli care au fost scrise din timp și ascunse în culise.

Asta este o „cutie neagră” ușor de ignorat în aplicațiile cu AI.

Mai ales când agenții AI încep să atingă bani, problema devine și mai evidentă. De exemplu, de ce refuză o tranzacție? De ce își ajustează brusc nivelul de risc? Este o judecată proprie a modelului, sau a modificat cineva promptul pe moment, din partea operațională? Dacă întregul proces există doar în logurile din backend, utilizatorul practic nu are cum să verifice.

Un aspect care mă interesează la OpenGradient este că încearcă să pună împreună apelarea modelului, conținutul promptului și rezultatul execuției într-un flux care poate fi verificat. Printr-un mediu TEE pentru efectuarea inferenței, apoi prin semnarea și înregistrarea procesului de apel, măcar permite confirmarea externă: rezultatul acesta a fost generat într-adevăr de modelul desemnat, în baza regulilor specificate, nu că s-a schimbat temporar ceva în backend cu o altă justificare.

Cred că acest punct contează mai mult decât o simplă comparație a clasamentelor modelelor.

Modelul este ca un motor, iar promptul de sistem e ca un volan. Chiar dacă motorul e foarte puternic, cine ține volanul și încotro îl întoarce, asta decide în mod real în ce direcție ajungi. Dar acum majoritatea utilizatorilor văd doar marca motorului, fără să vadă cine controlează volanul.

Desigur, înregistrarea prompturilor ridică și probleme de confidențialitate și secret comercial—nu e posibil ca tot conținutul să fie publicat direct. Cum se poate face astfel încât să fie verificabil, dar fără să fie expuse complet regulile interne, este o problemă pe care OpenGradient trebuie să o continue să o rezolve.

Dar direcția e corectă. Cu cât AI are mai multă putere în viitor, cu atât regulile ascunse nu mai pot fi lăsate să depindă doar de bunăvoința platformei. Utilizatorii poate că nu trebuie să vadă toate prompturile, dar cel puțin ar trebui să existe o modalitate de a dovedi că regulile nu au fost schimbate pe furiș în momente-cheie.

$OPG @OpenGradient #OPG