Riyamoni1 (@Riyamoni) 的見解

#opg $OPG @OpenGradient
第一次延遲發生在推理之前，而不是推理期間。它發生在模型還未響應請求之前。

一個節點接收到一個它在技術上能夠運行的任務，但模型還沒有到達。網絡知道模型在哪裏。鏈知道如何驗證它。但這些並沒有改變幾個千兆字節在第一個令牌出現之前仍需傳輸的事實。

這讓我對OpenGradient中的Walrus有了不同的想法。

存儲通常被描述爲一個已解決的問題。把大型對象放在其他地方，只在鏈上保留引用，讓節點根據需要獲取所需內容。架構優雅，但在需求下的行爲就不那麼明顯了。
一個冷節點獲取一個模型是可控的。五個冷節點同時請求同一個模型感覺就不一樣了。
每個節點是否獨立拉取相同的數據？
附近的節點是否開始共享緩存副本？
人氣是否逐漸決定模型存放的地方？
有趣的部分可能不是模型存放在哪裏，而是當需求出現後它變成本地基礎設施的速度。
一個經常被請求的模型緩慢地在網絡中傳播，直到延遲自然下降。一個很少使用的模型則保持遙遠，等待下載時間、驗證和內存分配。
這使得模型的放置變成了一個移動的目標。
存儲效率、帶寬成本、緩存決策和需求模式都開始像原始計算能力一樣影響推理速度。
我反覆回到的問題不是Walrus是否能夠存儲OpenGradient模型。
而是當多個冷節點在同一時刻需要這些模型時，是什麼決定了這些模型應該存在的位置。
#opg $OPG