我第一次注意到在 OpenGradient 上 KV 緩存效率，不是因為延遲看起來不佳，而是因為利用率看起來異常不均。

我第一次注意到在 OpenGradient 上 KV 緩存效率，不是因為延遲看起來不佳，而是因為利用率看起來異常不均。
起初，我把責任推給計算。這是顯而易見的解釋。但真正的壓力在於內存，長提示就像租用的房間一樣，並沒有充分利用 KV 緩存。
在一次 OpenGradient 測試中，我執行的批次請求範圍從大約 2k 到 16k 代幣不等。有些請求很快完成，而其他請求則持續佔用內存，遠超過它們實際生成工作負載所需的時間。
引人注目的是，當上下文長度變化時，未使用的緩存空間變得多麼昂貴。一個 16k 代幣的請求可以消耗幾倍於 4k 代幣請求的 KV 內存，即使兩者生成的輸出長度相似。在數十個並發會話中，這種差異迅速累積。
在一次實驗中，減少浪費的 KV 配置使得並發請求容量提高了大約 20-30%，然後內存壓力成為瓶頸。計算並不是限制因素。內存才是。
這是許多人低估的部分。關於 AI 基礎設施的討論往往集中在模型大小、GPU 數量或代幣生成速度上。與此同時，幾個 GB 的糟糕使用。
@OpenGradient
#OPG
$OPG

$HEI

$SYN

今天 AI 推理中最被忽視的限制是什麼？

Compute

50%

Memory

25%

Networking

25%

Verification/Proof

4 票 • 投票已結束