最近有件小事引起了我的注意。我在幾周前對同一個AI工作流程的輸出進行了比較,發現答案不一定更好或更差,只是不同。這讓我開始思考,當我們談論AI質量時,是否在測量正確的東西。
如今,大多數AI競爭似乎集中在基準分數上。回答更多問題正確的模型獲得關注。但實際上,許多現實用戶並不與基準進行互動。他們與重複的決策、反覆的工作流程以及需要隨時間穩定表現的系統進行互動。一旦輸出影響到金錢、操作或信任,一致性在不同的方式上就開始變得重要。
這就是OpenGradient讓我覺得有趣的地方。不是因爲它承諾更好的智能,而是因爲可驗證的推理和持久的記錄可以讓歷史行爲變得可見。基準是在某一時刻測量性能。歷史記錄則是測量隨時間的行爲。這兩者並不是同一回事。
這個區別讓我想起了使用與需求。一個令人印象深刻的結果可以吸引注意力。在變化的條件下反覆產生類似結果可以建立信任。證明與披露也是不同的。顯示一個分數是一回事。顯示一個可驗證的決策歷史則完全是另一回事。
如果這種轉變真的發生,AI模型可能會減少在孤立成就上的競爭,而更多地關注它們在數千次交互中表現的可靠性。問題是市場是否真的會爲一致性付費,還是隻是說他們重視它,直到智能變得足夠便宜再一次分散所有人的注意力。\n#OPG #Opg #opg $OPG @OpenGradient
如今,大多數AI競爭似乎集中在基準分數上。回答更多問題正確的模型獲得關注。但實際上,許多現實用戶並不與基準進行互動。他們與重複的決策、反覆的工作流程以及需要隨時間穩定表現的系統進行互動。一旦輸出影響到金錢、操作或信任,一致性在不同的方式上就開始變得重要。
這就是OpenGradient讓我覺得有趣的地方。不是因爲它承諾更好的智能,而是因爲可驗證的推理和持久的記錄可以讓歷史行爲變得可見。基準是在某一時刻測量性能。歷史記錄則是測量隨時間的行爲。這兩者並不是同一回事。
這個區別讓我想起了使用與需求。一個令人印象深刻的結果可以吸引注意力。在變化的條件下反覆產生類似結果可以建立信任。證明與披露也是不同的。顯示一個分數是一回事。顯示一個可驗證的決策歷史則完全是另一回事。
如果這種轉變真的發生,AI模型可能會減少在孤立成就上的競爭,而更多地關注它們在數千次交互中表現的可靠性。問題是市場是否真的會爲一致性付費,還是隻是說他們重視它,直到智能變得足夠便宜再一次分散所有人的注意力。\n#OPG #Opg #opg $OPG @OpenGradient