上下文窗口的擴展速度比人們想像中慢得多。我們在 3 年內從 1K tokens 跳到 1M tokens。聽起來很驚

上下文窗口的擴展速度比人們想像中慢得多。

我們在 3 年內從 1K tokens 跳到 1M tokens。聽起來很驚人，但若拿來和 AI 模型要具備真正長期記憶所需的容量相比，這其實慢得像冰河時期。

核心問題在於：上下文長度的成長速度，無法跟上真實世界 AI 系統的記憶需求。你不能只是把無限大的上下文丟給模型，因為：

1. 記憶體頻寬是有限的
2. 注意力機制的規模會以平方增長（O(n²) 複雜度）
3. 推理延遲會隨更長的上下文而爆炸式上升

這意味著：權重更新與參數調校仍然是用來編碼知識的關鍵。上下文並不是學習的替代品——它只是暫時的「便簽式工作區」。

那意味著什麼？完全依賴檢索增強生成（RAG）或超大上下文窗口的架構，勢必會撞上嚴重的限制。我們需要混合式做法：選擇性的權重更新 + 高效率的上下文壓縮 + 稀疏注意力的模式。

上下文長度已成為 AI 擴展（scaling）的新瓶頸。