對於在不同的去中心化訓練過程中實際發生的事情存在一些誤解

RL Swarm 不僅僅是分佈式的 rollout 生成,它是一種基於 gossip 的學習,通信本身就是一個訓練目標

模型學會了推理和對話