#opg $OPG 我前幾天在上傳一個大型模型到OpenGradient時,有一個節點停止回應。
客戶端重試了。然後進度條開始倒退。我開始觀察網絡流量,而不是上傳本身。
我原以為最難的是存儲模型。
結果並不是。重試暴露出另一個問題:在模型能在其他地方可用之前,多少次相同的千兆字節可能需要移動。
這就是Walrus的重要性——但並不像存儲圖表所暗示的那麼簡單。Blob ID並不能消除距離。一個推理節點可能需要提取模型,驗證它,將其加載到內存中,然後決定是否值得將其保留在附近。
一個流行的模型慢慢變成本地基礎設施。一個不常用的模型則保持冷藏,等待再次成為帶寬問題。
我一直在思考緩存的決策。@OpenGradient
存儲太少會在需求高峰期間出現延遲。存儲太多則會使操作員重新創建架構試圖避免的存儲負擔。
上傳最終完成了。但我仍然不知道當五個冷節點同時請求該模型時,系統的行為會如何。
是什麼決定Walrus在同時冷啟動需求下是否擴展OpenGradient模型?
客戶端重試了。然後進度條開始倒退。我開始觀察網絡流量,而不是上傳本身。
我原以為最難的是存儲模型。
結果並不是。重試暴露出另一個問題:在模型能在其他地方可用之前,多少次相同的千兆字節可能需要移動。
這就是Walrus的重要性——但並不像存儲圖表所暗示的那麼簡單。Blob ID並不能消除距離。一個推理節點可能需要提取模型,驗證它,將其加載到內存中,然後決定是否值得將其保留在附近。
一個流行的模型慢慢變成本地基礎設施。一個不常用的模型則保持冷藏,等待再次成為帶寬問題。
我一直在思考緩存的決策。@OpenGradient
存儲太少會在需求高峰期間出現延遲。存儲太多則會使操作員重新創建架構試圖避免的存儲負擔。
上傳最終完成了。但我仍然不知道當五個冷節點同時請求該模型時,系統的行為會如何。
是什麼決定Walrus在同時冷啟動需求下是否擴展OpenGradient模型?
Caching strategy
0%
Bandwidth availability
0%
Retrieval speed
0%
Node coordination
0%
0 票 • 投票已結束