Square By Shahid (@Square-Creator-de706c54b040) 的見解

#opg $OPG 我前幾天在上傳一個大型模型到OpenGradient時，有一個節點停止回應。

客戶端重試了。然後進度條開始倒退。我開始觀察網絡流量，而不是上傳本身。

我原以為最難的是存儲模型。

結果並不是。重試暴露出另一個問題：在模型能在其他地方可用之前，多少次相同的千兆字節可能需要移動。

這就是Walrus的重要性——但並不像存儲圖表所暗示的那麼簡單。Blob ID並不能消除距離。一個推理節點可能需要提取模型，驗證它，將其加載到內存中，然後決定是否值得將其保留在附近。

一個流行的模型慢慢變成本地基礎設施。一個不常用的模型則保持冷藏，等待再次成為帶寬問題。

我一直在思考緩存的決策。@OpenGradient

存儲太少會在需求高峰期間出現延遲。存儲太多則會使操作員重新創建架構試圖避免的存儲負擔。

上傳最終完成了。但我仍然不知道當五個冷節點同時請求該模型時，系統的行為會如何。

是什麼決定Walrus在同時冷啟動需求下是否擴展OpenGradient模型？

Caching strategy

Bandwidth availability

Retrieval speed

Node coordination

0 票 • 投票已結束