這張圖表挺有意思。

通過比較大模型在評測場的霸榜時間,可以非常直觀的觀察大語言模型領域競爭格局和演變趨勢。

當然了,爲了弱化中國在大模型這一塊的實力表現,這張圖顯然沒有把中國的大模型放在裏面,刻意迴避了DeepSeek和Qwen強有力表現的事實。。

核心結論:早期,OpenAI 在模型性能上保持了絕對領先和主導地位,但來自谷歌的 Gemini 正作爲強有力的挑戰者出現,而其他競爭者(如 Claude 和 Grok)的市場影響力相對有限。

總體格局:OpenAI 的絕對主導

統治級表現:代表 OpenAI 的綠色區域佔據了圖表絕大部分面積,總計達到 540天。這意味着在從2023年第二季度開始到2025年第四季度的絕大部分時間裏,LMArena 排行榜的榜首位置都由 OpenAI 的模型(推測主要爲 GPT 系列迭代版本)佔據。

強大的先發與持續優勢:OpenAI 從圖表起始點(2Q23)就佔據了榜首,並一直保持領先。這表明其不僅在發佈 ChatGPT 時取得了先發優勢,更重要的是,通過持續迭代(如 GPT-4, GPT-4 Turbo, GPT-4o 等),成功地將這種性能優勢維持了相當長的時間。

核心變局者:Gemini 的崛起

強有力的挑戰:代表谷歌 Gemini 的藍色區域從 2024年第四季度(4Q24) 開始出現,並迅速擴大。其總計榜首天數爲 302天,雖然遠少於 OpenAI,但考慮到其出現時間較晚,這個追趕速度非常驚人。

競爭的開始:Gemini 的崛起標誌着大模型領域從 OpenAI 一家獨大,進入了與谷歌雙雄爭霸的階段。圖表清晰顯示,從2024年底開始,榜首位置開始在 OpenAI 和 Gemini 之間頻繁交替,行業競爭白熱化。

其他參與者:市場份額有限

Claude(Anthropic):橙色區域,總計 27天。其表現相對穩定但份額很小,可能在某個特定時期或特定基準上表現突出,但未能對頭部兩強形成持續挑戰。

Grok(xAI):灰色區域,總計 34天。其情況與 Claude 類似,影響力有限。

時間線解讀:競爭態勢的演變

2023年 Q2 - 2024年 Q3:OpenAI 壟斷期。這一時期幾乎是 OpenAI 的“獨角戲”,其他模型開發者尚未能撼動其地位。

2024年 Q4 - 2025年 Q4:雙雄爭霸期。隨着谷歌投入大量資源併發布更強大的 Gemini 模型(如 Ultra 版本),格局被打破。圖表顯示,榜首位置在兩者之間激烈爭奪,但 OpenAI 總體上仍保持微弱優勢。

通過此圖表可能想表達

1. 技術迭代速度極快:從 OpenAI 長期壟斷到 Gemini 快速崛起,表明這個領域的技術壁壘雖然高,但頂尖的競爭者(如谷歌)有能力在短時間內實現重大突破並快速追趕。

2. 贏家通喫效應明顯:OpenAI 建立的巨大領先優勢使其獲得了最長的“性能標杆”時間,這有助於鞏固其品牌形象、開發者生態和商業合作,形成正向循環。

3. 競爭的持續性:圖表預測到2025年底,競爭依然激烈。這表明高盛認爲,在可預見的未來,頂級模型性能的“軍備競賽”不會停止,OpenAI 無法高枕無憂。