El Juego Piensa que Sabe Lo Que Estás a Punto de Hacer

Hubo una semana en Pixels donde estaba convencido de que había descubierto algo. Mis sesiones se habían acortado, me estaba logueando menos consistentemente, y de repente, las recompensas mejoraron notablemente. No drásticamente, solo lo suficiente para sentir que el juego estaba respondiendo. Cambié mi comportamiento para replicar lo que creía que había hecho. Las mejores recompensas se detuvieron. Volví a la normalidad.
Me tomó más tiempo del que debería haber tomado considerar una explicación diferente: el juego no estaba respondiendo a lo que había hecho. Estaba respondiendo a lo que pensaba que iba a hacer.
@Pixels  ejecuta una economía superficial que parece un sistema basado en reglas. Cultivar, crear, comerciar, completar misiones, recibir recompensas. La suposición razonable que hace cualquier jugador es que el sistema responde al comportamiento observable: haces X, recibes Y, y si entiendes la relación entre X e Y, puedes optimizar. Esta suposición es clara, aprendible y casi completamente incorrecta sobre lo que realmente está sucediendo en la capa que importa.
Stacked, la capa de economista de IA construida dentro de Pixels durante cuatro años y que recientemente se abrió a estudios de juegos externos, no lee principalmente lo que haces. Lee lo que tu comportamiento implica sobre tu estado interno: tu probabilidad de deserción, tu propensión a gastar, tu tasa de decadencia de compromiso, tu valor de vida previsto para el ecosistema. Estas variables latentes no se muestran en ninguna parte de la interfaz. Se infieren continuamente de acciones observables, frecuencia de sesiones, tiempo entre inicios de sesión, patrones de creación, actividad en el mercado, respuesta a incentivos anteriores, agregadas en una estimación del modelo de dónde te encuentras en tu relación con el juego. Los incentivos que recibes se despliegan en función de esa estimación, no en función de la acción superficial que los precedió.
Esta distinción importa más de lo que parece. En un sistema basado en reglas, dos jugadores que realizan acciones idénticas reciben resultados idénticos. El sistema es legible, aprendible. En un sistema basado en modelos, dos jugadores que realizan acciones idénticas pueden recibir diferentes resultados porque el modelo ha evaluado sus estados latentes de manera diferente. El inicio de sesión de un jugador se interpreta como un reenganche saludable. El inicio de sesión idéntico de otro jugador se interpreta como un indicador adelantado de deserción, activando una respuesta de incentivo diferente. Mismo input, diferente output, y ninguno de los jugadores puede ver por qué.
Llama a esto la brecha del estado latente: la distancia estructural entre la capa que los jugadores pueden observar y optimizar, y la capa a la que el sistema realmente está respondiendo. La brecha del estado latente no es un error. Es el mecanismo a través del cual Stacked hace su trabajo. La optimización de retención requiere predecir el comportamiento antes de que suceda, lo que requiere leer señales que los jugadores no están enviando conscientemente como estrategia. El sistema tiene que trabajar por debajo del nivel de acción deliberada, de lo contrario, los jugadores simplemente realizarían las acciones que desencadenan incentivos de retención sin estar en los estados que esos incentivos están diseñados para abordar.
Los números detrás del lanzamiento público de Stacked dan una idea de lo preciso que opera. Durante una campaña interna dirigida a gastadores inactivos, jugadores que no habían realizado una compra en más de 30 días, Stacked produjo un aumento del 178% en la conversión a gasto y un retorno del 131% en el gasto de recompensas. La campaña no estaba dirigida a todos los jugadores inactivos. Estaba dirigida a una cohorte específica que el modelo había identificado como recuperable, es decir, jugadores cuyo estado latente sugería que podrían ser reenganchados con la intervención adecuada en el momento adecuado. Los jugadores fuera de esa cohorte no recibieron la misma oferta. No estaban en el mismo segmento. Desde fuera, la economía parecía uniforme. Desde dentro, estaba ejecutando diferentes versiones de sí misma para diferentes personas simultáneamente.
La consecuencia conductual es específica. Los jugadores aprenden de los resultados. Cuando recibí mejores recompensas durante la semana en que mi compromiso había disminuido, actualicé mi comportamiento basado en ese resultado. Intenté replicar las condiciones que pensé que lo habían causado. Pero las condiciones que estaba replicando eran mis acciones observables, no mi estado latente. Estaba optimizando la capa incorrecta. El modelo no tenía razón para decírmelo. Y la falla de optimización era invisible porque la economía superficial continuó viéndose consistente: mismo mercado, mismas proporciones de creación, mismos $PIXEL precios. Nada en la interfaz indicaba que la lógica de recompensa que se ejecutaba por debajo había evaluado que era diferente esa semana que la semana anterior.
Esto crea un tipo específico de bucle de aprendizaje que nunca se cierra del todo. Los jugadores que quieren entender cómo funciona Pixels naturalmente intentarán inferir reglas a partir de los resultados. Construirán modelos mentales de qué comportamiento produce qué recompensa. Esos modelos serán localmente válidos, ajustándose a los datos a los que el jugador tiene acceso, pero sistemáticamente incompletos, porque la capa causal real incluye una variable de estado latente que no se presenta en ninguna parte. El jugador optimiza una representación superficial del juego mientras el juego responde a un modelo del jugador. Funcionan en paralelo sin llegar a hacer contacto.
La capa de gobernanza hereda esta asimetría estructuralmente. La visibilidad en la economía del token de Pixels cubre tasas de emisión, tamaños de pools de recompensas, parámetros de tokenomics. Estos son los controles visibles. La capa del modelo, las clasificaciones de cohortes, las condiciones de activación, la lógica de despliegue de incentivos, se encuentra debajo de esa visibilidad. Los poseedores de tokens pueden evaluar cuánto $PIXEL  fluye hacia el sistema de recompensas. No pueden evaluar cómo ese flujo se dirige diferencialmente por un modelo cuya lógica de decisión no está expuesta en las propuestas de gobernanza. Los parámetros son auditables. Los resultados que esos parámetros producen, filtrados a través de la segmentación del estado latente, no lo son.
Nada de esto hace que Stacked sea malicioso. La optimización de retención personalizada es una práctica estándar en cada producto de servicio en vivo importante, y el equipo de Pixels es más transparente que la mayoría sobre el hecho de que lo están haciendo. Barwikowski describió el objetivo directamente al lanzamiento: "recompensar acciones que realmente importan, como volver, progresar, gastar, contribuir a una economía saludable". Los $25 millones en ingresos del ecosistema que Stacked ayudó a generar en cuatro años dentro de Pixels son evidencia de que el enfoque funciona. Pero hay una diferencia significativa entre un sistema que optimiza resultados y un sistema cuya lógica de optimización es legible para las personas a las que se aplica.
El juego que crees que estás jugando en Pixels, uno donde entender las reglas te permite optimizar resultados, es una aproximación razonable para la mayoría de las sesiones. Debajo de esto, de manera continua, un modelo está leyendo señales que no sabías que estabas enviando, formando estimaciones sobre estados que no puedes observar en ti mismo, y desplegando incentivos diseñados para conducirte hacia resultados que ya ha predicho para ti.
No estás siendo recompensado por lo que haces. Estás siendo recompensado por lo que el sistema decidió que necesitabas antes de iniciar sesión.
La pregunta que vale la pena considerar es si saber eso cambia algo sobre cómo juegas, o si el modelo ya había tenido en cuenta el hecho de que eventualmente lo descubrirías.

$TRADOOR #pixel