我花了幾天時間對比不同 AI 系統的輸出,最後我乾脆不再在意哪個聽起來更聰明。

讓我一直記在心裏的問題其實更簡單:到底是什麼讓人足夠信任一個 AI 系統,從而持續使用它?

基準測試和演示能夠吸引注意力,但它們只呈現某一瞬間。長期信任來自別的東西——持續一致的表現、可靠的性能、對隱私的尊重,以及在最關鍵的時候系統會按預期運作的信心。

隨着 AI 成爲日常決策的一部分,這些特質也許會變得和原始“智力”同等重要。一個模型也許能生成令人印象深刻的回答,但如果用戶不覺得願意分享他們的數據、也不覺得依賴這些結果會讓自己安心,那麼僅憑能力本身就不夠。

這種看法讓我把目光從基準分數轉向真實世界的採用情況。一個例子是 @OpenGradient dient:它已經處理了超過 156,000 次私有推理,並且最近又融資了 9.5M。數字本身並不能保證成功,但它們表明,部分用戶和投資者看重的是圍繞信任與隱私來構建 AI 基礎設施,而不只是性能。

當然,信任比技術更難規模化。可能需要幾年才能建立起來,而在隱私、透明度或可靠性方面只要發生一次重大失誤,就可能讓一切付諸東流。

我很好奇大家怎麼看:在接下來的五年裏,AI 會更側重在智力上競爭,還是在信任上競爭?

就目前而言,我會繼續把更多關注放在真實世界的採用上,而不是基準分數。

@OpenGradient #OPG $OPG