Il Gioco Pensa di Sapere Cosa Stai Per Fare

C'è stata una settimana in Pixels in cui ero convinto di aver capito qualcosa. I miei tempi di sessione erano diminuiti, accedevo meno spesso, e poi, all'improvviso, i drop di ricompensa sono migliorati visibilmente. Non in modo drammatico, solo abbastanza da farmi sentire che il gioco stava rispondendo. Ho cambiato il mio comportamento per replicare ciò che pensavo di aver fatto. I drop migliori si sono fermati. Sono tornato alla normalità.
Ci ho messo più tempo del dovuto a considerare una spiegazione diversa: il gioco non rispondeva a quello che avevo fatto. Rispondeva a quello che pensava stessi per fare.
@Pixels  gestisce un'economia superficiale che sembra un sistema basato su regole. Coltiva, crea, commercia, completa missioni, ricevi ricompense. L'assunzione ragionevole che ogni giocatore fa è che il sistema risponde a comportamenti osservabili: fai X, ricevi Y, e se capisci la relazione tra X e Y puoi ottimizzare. Questa assunzione è pulita, apprendibile, e quasi totalmente errata su ciò che sta realmente accadendo al livello che conta.
Stacked, il layer di economista AI costruito all'interno di Pixels in quattro anni e appena recentemente aperto a studi di gioco esterni, non legge principalmente ciò che fai. Legge ciò che il tuo comportamento implica sul tuo stato interno: la tua probabilità di abbandono, la tua propensione alla spesa, il tuo tasso di decadimento dell'engagement, il tuo valore di vita previsto per l'ecosistema. Queste variabili latenti non sono visualizzate da nessuna parte nell'interfaccia. Vengono inferite continuamente da azioni osservabili, frequenza delle sessioni, tempo tra i login, modelli di crafting, attività di mercato, risposta ai precedenti incentivi, aggregate in una stima del modello su dove ti trovi nella tua relazione con il gioco. Gli incentivi che ricevi vengono distribuiti in base a quella stima, non all'azione superficiale che li ha preceduti.
Questa distinzione è più importante di quanto sembri. In un sistema basato su regole, due giocatori che compiono azioni identiche ricevono risultati identici. Il sistema è leggibile, apprendibile. In un sistema basato su modelli, due giocatori che compiono azioni identiche possono ricevere risultati diversi perché il modello ha valutato i loro stati latenti in modo differente. Il login di un giocatore viene interpretato come un ri-ingaggio sano. Il login identico di un altro giocatore viene interpretato come un indicatore anticipato di abbandono, attivando una risposta incentivante differente. Stessa input, output diverso, e nessun giocatore può vedere il perché.
Chiama questo il gap di stato latente: la distanza strutturale tra il layer che i giocatori possono osservare e ottimizzare, e il layer a cui il sistema sta realmente rispondendo. Il gap di stato latente non è un bug. È il meccanismo attraverso il quale Stacked svolge il suo lavoro. L'ottimizzazione della retention richiede di prevedere il comportamento prima che accada, il che richiede leggere segnali che i giocatori non stanno inviando consapevolmente come strategia. Il sistema deve lavorare al di sotto del livello dell'azione deliberata, altrimenti i giocatori semplicemente eseguirebbero le azioni che attivano gli incentivi di retention senza essere negli stati che quegli incentivi sono progettati per affrontare.
I numeri dietro il lancio pubblico di Stacked danno un'idea di quanto operi precisamente. Durante una campagna interna mirata a spendenti inattivi, giocatori che non avevano effettuato acquisti in oltre 30 giorni, Stacked ha prodotto un aumento del 178% nella conversione alla spesa e un ritorno del 131% sulla spesa per ricompense. La campagna non era rivolta a tutti i giocatori inattivi. Era rivolta a una coorte specifica che il modello aveva identificato come recuperabile, cioè giocatori il cui stato latente suggeriva che potessero essere ri-ingaggiati con la giusta intervento al momento giusto. I giocatori al di fuori di quella coorte non hanno ricevuto la stessa offerta. Non erano nello stesso segmento. Dall'esterno, l'economia sembrava uniforme. Dall'interno, stava eseguendo versioni diverse di se stessa per persone diverse simultaneamente.
La conseguenza comportamentale è specifica. I giocatori apprendono dagli esiti. Quando ho ricevuto migliori ricompense durante la settimana in cui il mio engagement era diminuito, ho aggiornato il mio comportamento sulla base di quel risultato. Ho cercato di replicare le condizioni che pensavo avessero causato ciò. Ma le condizioni che stavo replicando erano le mie azioni osservabili, non il mio stato latente. Stavo ottimizzando il layer sbagliato. Il modello non aveva motivo di dirmelo. E il fallimento di ottimizzazione era invisibile perché l'economia superficiale continuava a sembrare coerente: stesso mercato, stessi rapporti di crafting, stessi $PIXEL  prezzi. Niente nell'interfaccia indicava che la logica di ricompensa che operava sotto di essa mi avesse valutato in modo differente quella settimana rispetto alla settimana precedente.
Questo crea un tipo specifico di ciclo di apprendimento che non si chiude mai del tutto. I giocatori che vogliono capire come funziona Pixels cercheranno naturalmente di dedurre regole dagli esiti. Costruiranno modelli mentali di quale comportamento produce quale ricompensa. Quei modelli saranno validi localmente, adattandosi ai dati a cui il giocatore ha accesso, ma sistematicamente incompleti, perché il reale strato causale include una variabile di stato latente che non è esposta da nessuna parte. Il giocatore ottimizza una rappresentazione superficiale del gioco mentre il gioco risponde a un modello del giocatore. Operano in parallelo senza mai entrare in contatto.
Il layer di governance eredita questa asimmetria strutturalmente. La visibilità nell'economia del token di Pixels copre tassi di emissione, dimensioni del pool di ricompense, parametri tokenomici. Questi sono i controlli visibili. Il layer del modello, le classificazioni delle coorti, le condizioni di attivazione, la logica di distribuzione degli incentivi, si trovano sotto quella visibilità. I detentori di token possono valutare quanto $PIXEL  fluisce nel sistema di ricompensa. Non possono valutare come quel flusso sia diretto in modo differenziale da un modello la cui logica decisionale non è esposta nelle proposte di governance. I parametri sono auditabili. I risultati che quei parametri producono, filtrati attraverso la segmentazione dello stato latente, non lo sono.
Niente di tutto ciò rende Stacked maligno. L'ottimizzazione della retention personalizzata è una pratica standard in ogni prodotto di servizio live importante, e il team di Pixels è più trasparente della maggior parte riguardo al fatto che lo sta facendo. Barwikowski ha descritto l'obiettivo direttamente al lancio: "premia azioni che contano davvero, come tornare, progredire, spendere, contribuire a un'economia sana." I 25 milioni di dollari in entrate ecosistemiche che Stacked ha aiutato a generare in quattro anni all'interno di Pixels sono la prova che l'approccio funziona. Ma c'è una differenza significativa tra un sistema che ottimizza i risultati e un sistema la cui logica di ottimizzazione è leggibile dalle persone a cui viene applicato.
Il gioco che pensi di giocare in Pixels, uno in cui comprendere le regole ti consente di ottimizzare i risultati, è un'approssimazione ragionevole per la maggior parte delle sessioni. Sotto di esso, continuamente, un modello sta leggendo segnali che non sapevi di inviare, formando stime su stati che non puoi osservare in te stesso, e distribuendo incentivi progettati per portarti verso risultati che ha già previsto per te.
Non ricevi ricompense per ciò che fai. Ricevi ricompense per ciò che il sistema ha deciso che ti servisse prima di accedere.
La domanda su cui vale la pena riflettere è se sapere questo cambi qualcosa su come giochi, o se il modello avesse già tenuto conto del fatto che alla fine lo avresti scoperto.

$TRADOOR #pixel