上下文窗口的擴展速度比人們想像中慢得多。

我們在 3 年內從 1K tokens 跳到 1M tokens。聽起來很驚人,但若拿來和 AI 模型要具備真正長期記憶所需的容量相比,這其實慢得像冰河時期。

核心問題在於:上下文長度的成長速度,無法跟上真實世界 AI 系統的記憶需求。你不能只是把無限大的上下文丟給模型,因為:

1. 記憶體頻寬是有限的
2. 注意力機制的規模會以平方增長(O(n²) 複雜度)
3. 推理延遲會隨更長的上下文而爆炸式上升

這意味著:權重更新與參數調校仍然是用來編碼知識的關鍵。上下文並不是學習的替代品——它只是暫時的「便簽式工作區」。

那意味著什麼?完全依賴檢索增強生成(RAG)或超大上下文窗口的架構,勢必會撞上嚴重的限制。我們需要混合式做法:選擇性的權重更新 + 高效率的上下文壓縮 + 稀疏注意力的模式。

上下文長度已成為 AI 擴展(scaling)的新瓶頸。