A fost o săptămână în Pixels în care eram convins că am descoperit ceva. Durata sesiunilor mele scăzuse, mă conectam mai puțin constant, și apoi, dintr-o dată, recompensele au început să fie vizibil mai bune. Nu dramatic, doar suficient încât să simt că jocul reacționa. Mi-am schimbat comportamentul pentru a replica ceea ce credeam că am făcut. Căderile mai bune s-au oprit. M-am întors la normal.

Mi-a luat mai mult timp decât ar fi trebuit să iau în considerare o explicație diferită: jocul nu reacționa la ceea ce făcusem. Reacționa la ceea ce credea că urmează să fac.

@Pixels rulează o economie de suprafață care pare un sistem bazat pe reguli. Fermează, creează, tranzacționează, completează misiuni, primește recompense. Presupunerea rezonabilă pe care o face orice jucător este că sistemul răspunde la comportamentul observabil: faci X, primești Y, și dacă înțelegi relația dintre X și Y poți optimiza. Această presupunere este curată, învățabilă și aproape complet greșită despre ceea ce se întâmplă cu adevărat la nivelul care contează.

Stacked, stratul de economist AI construit în interiorul Pixels în patru ani și recent deschis studiourilor de jocuri externe, nu citește în principal ceea ce faci. Citește ceea ce comportamentul tău implică despre starea ta internă: probabilitatea de abandon, predispoziția la cheltuieli, rata de decădere a angajamentului, valoarea ta de viață prezisă pentru ecosistem. Aceste variabile latente nu sunt afișate nicăieri în UI. Ele sunt inferate continuu din acțiuni observabile, frecvența sesiunilor, timpul între logins, tiparele de crafting, activitatea pe piață, răspunsul la stimulentele anterioare, agregate într-o estimare a modelului despre unde te afli în relația ta cu jocul. Stimulentele pe care le primești sunt desfășurate împotriva acelei estimări, nu împotriva acțiunii de suprafață care le-a precedat.

Această distincție contează mai mult decât pare. Într-un sistem bazat pe reguli, doi jucători care efectuează acțiuni identice primesc rezultate identice. Sistemul este lizibil, învățabil. Într-un sistem bazat pe modele, doi jucători care fac același lucru pot primi rezultate diferite pentru că modelul a evaluat stările lor latente diferit. Un login al unui jucător este citit ca o reangajare sănătoasă. Loginul identic al altui jucător este citit ca un indicator principal al abandonului, declanșând un răspuns de stimulare diferit. Aceeași intrare, ieșire diferită, și niciun jucător nu poate vedea de ce.

Numiți aceasta diferența de stare latentă: distanța structurală dintre stratul pe care jucătorii îl pot observa și optimiza și stratul la care sistemul răspunde cu adevărat. Diferența de stare latentă nu este un bug. Este mecanismul prin care Stacked își face treaba. Optimizarea retenției necesită prezicerea comportamentului înainte de a se întâmpla, ceea ce necesită citirea semnalelor pe care jucătorii nu le trimit conștient ca strategie. Sistemul trebuie să funcționeze sub nivelul acțiunii deliberate, altfel jucătorii ar efectua pur și simplu acțiunile care declanșează stimulentele de retenție fără a fi în stările pe care aceste stimulente sunt concepute să le abordeze.

Numerele din spatele lansării publice a Stacked oferă o idee despre cât de precis funcționează. În timpul unei campanii interne care viza jucătorii inactivi, jucători care nu mai făcuseră o achiziție de peste 30 de zile, Stacked a generat o creștere de 178% în conversia la cheltuieli și un return de 131% pe cheltuielile de recompensă. Campania nu a fost direcționată către toți jucătorii inactivi. A fost direcționată către o cohortă specifică pe care modelul a identificat-o ca fiind recuperabilă, adică jucători ale căror stări latente sugerau că ar putea fi reangajați cu intervenția potrivită la momentul potrivit. Jucătorii din afara acelei cohorta nu au primit aceeași ofertă. Ei nu erau în același segment. Din exterior, economia părea uniformă. Din interior, rula versiuni diferite ale sale pentru diferite persoane simultan.

Consecința comportamentală este specifică. Jucătorii învață din rezultate. Când am primit recompense mai bune în săptămâna în care angajamentul meu scăzuse, mi-am actualizat comportamentul pe baza acelei ieșiri. Am încercat să reproduc condițiile pe care credeam că le-au cauzat. Dar condițiile pe care le reproduceam erau acțiunile mele observabile, nu starea mea latentă. Optimizaam nivelul greșit. Modelul nu avea motive să-mi spună asta. Și eșecul de optimizare a fost invizibil pentru că economia de suprafață a continuat să arate consistent: aceeași piață, aceleași proporții de crafting, aceleași $PIXEL prețuri. Nimic în UI nu indica faptul că logica recompenselor care rulau sub aceasta m-a evaluat diferit în acea săptămână decât săptămâna precedentă.

Aceasta creează un tip specific de ciclu de învățare care nu se închide niciodată complet. Jucătorii care vor să înțeleagă cum funcționează Pixels vor încerca în mod natural să deducă reguli din rezultate. Vor construi modele mentale despre ce comportament produce ce recompensă. Aceste modele vor fi valid locale, potrivindu-se datelor la care jucătorul are acces, dar sistematic incomplete, pentru că stratul cauzal real include o variabilă de stare latentă care nu este prezentată nicăieri. Jucătorul optimizează o reprezentare de suprafață a jocului în timp ce jocul răspunde la un model al jucătorului. Ele funcționează în paralel fără a face contact.

Stratul de guvernanță moștenește această asimetrie structural. Vizibilitatea în economia token-urilor Pixels acoperă ratele de emisie, dimensiunile fondurilor de recompensă, parametrii tokenomics. Acestea sunt controalele vizibile. Stratului modelului, clasificările cohortelor, condițiile de declanșare, logica desfășurării stimulentelor, se află sub acea vizibilitate. Deținătorii de token-uri pot evalua cât de mult $PIXEL curge în sistemul de recompense. Ei nu pot evalua cum este direcționat acel flux diferit de un model al cărui logic de decizie nu este prezentat în propunerile de guvernanță. Parametrii sunt auditați. Rezultatele pe care acești parametri le produc, filtrate prin segmentarea stării latente, nu sunt.

Nimic din toate acestea nu face ca Stacked să fie malițios. Optimizarea personalizată a retenției este o practică standard în fiecare produs major de servicii live, iar echipa Pixels este mai transparentă decât majoritatea despre faptul că face acest lucru. Barwikowski a descris direct obiectivul la lansare: "recompensează acțiunile care contează cu adevărat, cum ar fi revenirea, progresul, cheltuirea, contribuind la o economie sănătoasă." Cei 25 de milioane de dolari în venituri din ecosistem pe care Stacked a ajutat să genereze în patru ani în cadrul Pixels sunt dovezi că abordarea funcționează. Dar există o diferență semnificativă între un sistem care optimizează rezultatele și un sistem al cărui logic de optimizare este lizibil pentru persoanele cărora le este aplicat.

Jocul pe care crezi că îl joci în Pixels, unul în care înțelegerea regulilor îți permite să optimizezi rezultatele, este o aproximare rezonabilă pentru cele mai multe sesiuni. Sub aceasta, continuu, un model citește semnale pe care nu știai că le trimiteai, formând estimări despre stări pe care nu le poți observa în tine, și desfășurând stimulente concepute să te conducă spre rezultate pe care le-a prezis deja pentru tine.

Nu primești recompense pentru ceea ce faci. Primești recompense pentru ceea ce sistemul a decis că ai nevoie înainte să te loghezi.

Întrebarea merită să ne gândim este dacă știind asta schimbă ceva în modul în care joci, sau dacă modelul a considerat deja că vei descoperi acest lucru.

$TRADOOR #pixel