OpenAI推出全新方案，推理成本直接減半

　　據一位知情人士透露，此前尚未對外披露的消息顯示，本月早些時候，OpenAI 工程師向部分內部同事透露，通過一系列全新的技術優化手段，他們找到了一種可將模型推理運行成本降低一半以上的方案。
　　工程師將這套新技術應用於未註冊免費 / 付費賬號的訪客訪問 ChatGPT 場景後，峯值時段所需的英偉達顯卡算力規模一度僅需幾百塊，這一數字低得超乎預期。（當然，OpenAI 針對這類匿名訪客設置了調用頻次限制，該羣體的 ChatGPT 整體使用量並不算高。）
　　目前 OpenAI 並未公開本次效率提升所採用的具體技術細節，業內推測常用優化手段包含：模型量化、鍵值緩存（讓模型記憶過往計算信息，避免重複運算）、請求批量處理（批量應答用戶查詢而非逐條處理）、調度請求至低功耗輕量化模型或模型子模塊來完成應答等。
　　不過等到今年晚些時候 OpenAI 推出參數量更大的新一代模型後，這批優化技術帶來的降本效果或許會有所減弱，因爲大參數模型本身的運行成本會顯著走高。
　　這類推理優化技術被競品 Anthropic 稱作算力倍增技術，也是各大 AI 實驗室重點攻堅的方向。至少從 2023 年年中開始，Anthropic 首席執行官達里奧?阿莫代伊就曾在播客節目中公開提及這一概念。他當時表示，公司嚴格限制知曉單套算力優化方案的內部人員範圍，一旦相關技術被同行復刻，將會讓其他 AI 實驗室獲得競爭優勢。（算力倍增技術同樣也可指代模型訓練階段的各類效率優化手段。）
　　這類優化技術的重要性愈發凸顯，當下頭部 AI 研發企業普遍面臨服務器算力供給緊缺的困境。即便企業簽約新建或租賃數據中心，項目從開工到正式投產往往需要數月甚至數年時間。（OpenAI 也在聯合博通自研面向大模型運行的專用芯片，試圖進一步壓低推理成本，目標是相比英偉達商用芯片實現降本。）
　　OpenAI 本次技術優化落地後，市場也十分關注企業將如何處置省下的算力成本。一方面，OpenAI 可以把紅利讓渡給用戶：要麼提升付費訂閱用戶的 ChatGPT 調用額度，要麼下調面向開發者開放的模型接口定價。如今老版本模型的調用價格已經降至最初定價的幾分之一，推理優化正是核心原因之一。
　　這將進一步鞏固 OpenAI 高性價比模型服務商的市場定位，近期競品 Anthropic 就因模型定價偏高飽受爭議 —— 即便其模型輸出效果更優異。
　　另一方面，OpenAI 也可以選擇用降本收益提升毛利率，而公司毛利率主要由推理算力成本決定。今年一季度 OpenAI 毛利率爲 39%，較去年同期的 33% 有所提升，但距離年末 52% 的目標毛利率仍有不小差距。
　　想要達成年度目標，公司在今年剩餘時間需要實現平均 56% 的毛利率。Anthropic 今年上半年營收大幅暴漲，本季度有望實現意外盈利，也充分印證了行業景氣週期下毛利率的提升速度。
　　現階段 OpenAI 尚不具備絕對的定價話語權，但本次推理優化技術將大幅拓寬其毛利率改善的路徑。