Le jeu pense qu'il sait ce que tu es sur le point de faire

Il y a eu une semaine dans Pixels où j'étais convaincu d'avoir découvert quelque chose. La durée de mes sessions avait diminué, je me connectais moins régulièrement, et puis, d'un coup, les drops de récompenses s'étaient nettement améliorés. Pas de manière spectaculaire, juste assez pour donner l'impression que le jeu réagissait. J'ai changé mon comportement pour reproduire ce que je pensais avoir fait. Les meilleurs drops se sont arrêtés. Je suis revenu à la normale.
Il m'a fallu plus de temps que prévu pour envisager une autre explication : le jeu ne réagissait pas à ce que j'avais fait. Il réagissait à ce qu'il pensait que j'étais sur le point de faire.
@Pixels  gère une économie de surface qui ressemble à un système basé sur des règles. Ferme, fabrique, échange, complète des quêtes, reçoit des récompenses. L'hypothèse raisonnable que tout joueur fait est que le système répond à un comportement observable : tu fais X, tu reçois Y, et si tu comprends la relation entre X et Y, tu peux optimiser. Cette hypothèse est claire, apprenable, et presque entièrement fausse sur ce qui se passe réellement à la couche qui compte.
Stacked, la couche d'économiste IA construite à l'intérieur de Pixels pendant quatre ans et récemment ouverte aux studios de jeux externes, ne lit pas principalement ce que vous faites. Elle lit ce que votre comportement implique sur votre état interne : votre probabilité de désengagement, votre propension à dépenser, votre taux de déclin d'engagement, votre valeur à vie prédite pour l'écosystème. Ces variables latentes ne sont affichées nulle part dans l'UI. Elles sont continuellement déduites d'actions observables, de la fréquence des sessions, du temps entre les connexions, des modèles de fabrication, de l'activité sur le marché, de la réponse aux incitations précédentes, agrégées en une estimation du modèle de l'endroit où vous en êtes dans votre relation avec le jeu. Les incitations que vous recevez sont déployées contre cette estimation, pas contre l'action de surface qui les a précédées.
Cette distinction est plus importante qu'elle n'en a l'air. Dans un système basé sur des règles, deux joueurs effectuant des actions identiques reçoivent des résultats identiques. Le système est lisible, apprenable. Dans un système basé sur un modèle, deux joueurs effectuant des actions identiques peuvent recevoir des résultats différents parce que le modèle a évalué leurs états latents différemment. La connexion d'un joueur est interprétée comme un réengagement sain. La connexion identique d'un autre joueur est interprétée comme un indicateur de désengagement, déclenchant une réponse d'incitation différente. Même entrée, sortie différente, et aucun joueur ne peut voir pourquoi.
Appelez cela l'écart d'état latent : la distance structurelle entre la couche que les joueurs peuvent observer et optimiser, et la couche à laquelle le système répond réellement. L'écart d'état latent n'est pas un bug. C'est le mécanisme par lequel Stacked fait son travail. L'optimisation de la rétention nécessite de prédire le comportement avant qu'il ne se produise, ce qui nécessite de lire des signaux que les joueurs n'envoient pas consciemment comme stratégie. Le système doit fonctionner en dessous du niveau de l'action délibérée, sinon les joueurs effectueraient simplement les actions qui déclenchent les incitations de rétention sans être dans les états que ces incitations sont conçues pour traiter.
Les chiffres derrière le lancement public de Stacked donnent une idée de la précision avec laquelle il fonctionne. Lors d'une campagne interne ciblant les dépensiers inactifs, les joueurs qui n'avaient pas effectué d'achat depuis plus de 30 jours, Stacked a produit une augmentation de 178 % de la conversion à la dépense et un retour de 131 % sur les dépenses de récompense. La campagne n'était pas destinée à tous les joueurs inactifs. Elle était ciblée sur une cohorte spécifique que le modèle avait identifiée comme récupérable, signifiant des joueurs dont l'état latent suggérait qu'ils pouvaient être réengagés avec la bonne intervention au bon moment. Les joueurs en dehors de cette cohorte n'ont pas reçu la même offre. Ils n'étaient pas dans le même segment. De l'extérieur, l'économie semblait uniforme. De l'intérieur, elle fonctionnait avec différentes versions d'elle-même pour différentes personnes simultanément.
La conséquence comportementale est spécifique. Les joueurs apprennent des résultats. Quand j'ai reçu de meilleures récompenses pendant la semaine où mon engagement avait chuté, j'ai mis à jour mon comportement en fonction de ce résultat. J'ai essayé de reproduire les conditions que je pensais avoir causées. Mais les conditions que je reproduisais étaient mes actions observables, pas mon état latent. J'optimisais la mauvaise couche. Le modèle n'avait aucune raison de me le dire. Et l'échec d'optimisation était invisible parce que l'économie de surface continuait d'avoir l'air cohérente : même marché, mêmes ratios de fabrication, mêmes $PIXEL  prix. Rien dans l'UI n'indiquait que la logique de récompense fonctionnant en dessous avait évalué ma situation différemment cette semaine-là par rapport à la semaine précédente.
Cela crée un type spécifique de boucle d'apprentissage qui ne se ferme jamais tout à fait. Les joueurs qui veulent comprendre comment Pixels fonctionne essaieront naturellement d'inférer des règles à partir des résultats. Ils construiront des modèles mentaux de ce qui produit quelle récompense. Ces modèles seront localement valides, correspondant aux données auxquelles le joueur a accès, mais systématiquement incomplets, car la couche causale réelle inclut une variable d'état latent qui n'est affichée nulle part. Le joueur optimise une représentation de surface du jeu tandis que le jeu répond à un modèle du joueur. Ils fonctionnent en parallèle sans vraiment entrer en contact.
La couche de gouvernance hérite de cette asymétrie structurellement. La visibilité dans l'économie des tokens Pixels couvre les taux d'émission, les tailles des pools de récompenses, les paramètres tokenomiques. Ce sont les contrôles visibles. La couche modèle, les classifications de cohortes, les conditions de déclenchement, la logique de déploiement des incitations, se trouvent en dessous de cette visibilité. Les détenteurs de tokens peuvent évaluer combien $PIXEL  s'écoule dans le système de récompense. Ils ne peuvent pas évaluer comment ce flux est dirigé différemment par un modèle dont la logique décisionnelle n'est pas exposée dans les propositions de gouvernance. Les paramètres sont audités. Les résultats que ces paramètres produisent, filtrés par la segmentation des états latents, ne le sont pas.
Tout cela ne rend pas Stacked malveillant. L'optimisation de la rétention personnalisée est une pratique standard dans chaque produit de service en direct majeur, et l'équipe de Pixels est plus transparente que la plupart sur le fait qu'elle le fait. Barwikowski a décrit l'objectif directement au lancement : "récompenser les actions qui comptent réellement, comme revenir, progresser, dépenser, contribuer à une économie saine." Les 25 millions de dollars de revenus d'écosystème que Stacked a aidé à générer en quatre ans au sein de Pixels sont la preuve que l'approche fonctionne. Mais il y a une différence significative entre un système qui optimise les résultats et un système dont la logique d'optimisation est lisible pour les personnes à qui elle s'applique.
Le jeu auquel vous pensez jouer dans Pixels, celui où comprendre les règles vous permet d'optimiser les résultats, est une approximation raisonnable pour la plupart des sessions. En dessous de cela, continuellement, un modèle lit des signaux que vous ne saviez pas que vous envoyiez, formant des estimations sur des états que vous ne pouvez pas observer en vous-même, et déployant des incitations conçues pour vous orienter vers des résultats qu'il a déjà prédits pour vous.
Vous ne recevez pas de récompenses pour ce que vous faites. Vous recevez des récompenses pour ce que le système a décidé que vous aviez besoin avant de vous connecter.
La question qui mérite d'être posée est de savoir si le fait de le savoir change quelque chose sur la façon dont vous jouez, ou si le modèle avait déjà pris en compte le fait que vous finiriez par le découvrir.

$TRADOOR #pixel