
據一位知情人士透露,此前尚未對外披露的消息顯示,本月早些時候,OpenAI 工程師向部分內部同事透露,通過一系列全新的技術優化手段,他們找到了一種可將模型推理運行成本降低一半以上的方案。
工程師將這套新技術應用於未註冊免費 / 付費賬號的訪客訪問 ChatGPT 場景後,峯值時段所需的英偉達顯卡算力規模一度僅需幾百塊,這一數字低得超乎預期。(當然,OpenAI 針對這類匿名訪客設置了調用頻次限制,該羣體的 ChatGPT 整體使用量並不算高。)
目前 OpenAI 並未公開本次效率提升所採用的具體技術細節,業內推測常用優化手段包含:模型量化、鍵值緩存(讓模型記憶過往計算信息,避免重複運算)、請求批量處理(批量應答用戶查詢而非逐條處理)、調度請求至低功耗輕量化模型或模型子模塊來完成應答等。
不過等到今年晚些時候 OpenAI 推出參數量更大的新一代模型後,這批優化技術帶來的降本效果或許會有所減弱,因爲大參數模型本身的運行成本會顯著走高。
這類推理優化技術被競品 Anthropic 稱作算力倍增技術,也是各大 AI 實驗室重點攻堅的方向。至少從 2023 年年中開始,Anthropic 首席執行官達里奧?阿莫代伊就曾在播客節目中公開提及這一概念。他當時表示,公司嚴格限制知曉單套算力優化方案的內部人員範圍,一旦相關技術被同行復刻,將會讓其他 AI 實驗室獲得競爭優勢。(算力倍增技術同樣也可指代模型訓練階段的各類效率優化手段。)
這類優化技術的重要性愈發凸顯,當下頭部 AI 研發企業普遍面臨服務器算力供給緊缺的困境。即便企業簽約新建或租賃數據中心,項目從開工到正式投產往往需要數月甚至數年時間。(OpenAI 也在聯合博通自研面向大模型運行的專用芯片,試圖進一步壓低推理成本,目標是相比英偉達商用芯片實現降本。)
OpenAI 本次技術優化落地後,市場也十分關注企業將如何處置省下的算力成本。一方面,OpenAI 可以把紅利讓渡給用戶:要麼提升付費訂閱用戶的 ChatGPT 調用額度,要麼下調面向開發者開放的模型接口定價。如今老版本模型的調用價格已經降至最初定價的幾分之一,推理優化正是核心原因之一。
這將進一步鞏固 OpenAI 高性價比模型服務商的市場定位,近期競品 Anthropic 就因模型定價偏高飽受爭議 —— 即便其模型輸出效果更優異。
另一方面,OpenAI 也可以選擇用降本收益提升毛利率,而公司毛利率主要由推理算力成本決定。今年一季度 OpenAI 毛利率爲 39%,較去年同期的 33% 有所提升,但距離年末 52% 的目標毛利率仍有不小差距。
想要達成年度目標,公司在今年剩餘時間需要實現平均 56% 的毛利率。Anthropic 今年上半年營收大幅暴漲,本季度有望實現意外盈利,也充分印證了行業景氣週期下毛利率的提升速度。
現階段 OpenAI 尚不具備絕對的定價話語權,但本次推理優化技術將大幅拓寬其毛利率改善的路徑。