我第一次注意到在 OpenGradient 上 KV 緩存效率,不是因為延遲看起來不佳,而是因為利用率看起來異常不均。
起初,我把責任推給計算。這是顯而易見的解釋。但真正的壓力在於內存,長提示就像租用的房間一樣,並沒有充分利用 KV 緩存。
在一次 OpenGradient 測試中,我執行的批次請求範圍從大約 2k 到 16k 代幣不等。有些請求很快完成,而其他請求則持續佔用內存,遠超過它們實際生成工作負載所需的時間。
引人注目的是,當上下文長度變化時,未使用的緩存空間變得多麼昂貴。一個 16k 代幣的請求可以消耗幾倍於 4k 代幣請求的 KV 內存,即使兩者生成的輸出長度相似。在數十個並發會話中,這種差異迅速累積。
在一次實驗中,減少浪費的 KV 配置使得並發請求容量提高了大約 20-30%,然後內存壓力成為瓶頸。計算並不是限制因素。內存才是。
這是許多人低估的部分。關於 AI 基礎設施的討論往往集中在模型大小、GPU 數量或代幣生成速度上。與此同時,幾個 GB 的糟糕使用。
@OpenGradient
#OPG
$OPG

$HEI

$SYN


今天 AI 推理中最被忽視的限制是什麼?
Compute
50%
Memory
25%
Networking
25%
Verification/Proof
0%
4 票 • 投票已結束