我前幾天在測試 OpenGradient 的路由場景時,有一個請求一直無法達到其延遲目標。

排程器選擇了最近的推理節點。在理論上,這是顯而易見的決策。

但是該節點並沒有準備好所請求的模型。

它開始拉取模型,而另一個稍微遠一點的節點已經預熱且大部分時間閒置。較短的網路路徑卻成為了較慢的執行路徑。

這是第一次錯位。

我一直把節點放置當作地理問題來處理。其實更接近於一個協調問題,裡面還包含地理因素。距離固然重要,但 GPU 容量、隊列壓力、模型狀態,以及備援節點是否真的與主節點有所不同,這些都同樣重要。

地圖看起來是分散的,但依賴圖卻不是。

兩個位於不同城市的節點仍然可以共享同一個雲端供應商、一個操作員,或是一個區域性網路故障。
$OPG
真正的考驗在於下一個節點出現的地方——以及它們是否能減少用戶實際感受到的延遲和共享故障。

在全球範圍內放置 OpenGradient 節點時,最重要的是什麼?
@OpenGradient
· 延遲
· 容量
· 韌性

#OPG #DeFAI #AIInfrastructure