我想象了一個借貸應用在用戶的AI評分後降低風險限額。
在屏幕上,它看起來幾乎無害。
錢包連接了。模型檢查模式。應用說這個賬戶比之前更風險,所以限額發生了變化。
起初,我曾認爲驗證者的工作是問那個AI評分是否看起來合理。
那是錯誤的觀點。
驗證者不是一個人類法官,來判斷答案是否聽起來合理。更冷酷的問題是運行是否按照應用聲稱的方式發生。
這就是OpenGradient讓我明白的地方。
麻煩的部分不是分數本身,而是與分數相關的證據。哪個模型運行了,在哪裏運行,以及什麼證據支持這次運行。沒有這些,應用並沒有真正消除信任。它只是將信任差距轉移到了後端。
我稱之爲證據捆綁問題。
這聽起來像是管道問題,直到用戶質疑限額的變化。
現在建設者有了一個真正的問題。他們不能通過說AI的答案看起來不錯來爲應用辯護。他們必須打開運行,展示結果背後有證據。
在那時,OpenGradient對我來說更有意義。不是作爲人們應該更相信的AI,而是作爲可以在有人問“這是真正的運行嗎?”時帶來證據的AI輸出。
輕鬆的承諾是能回答的AI。
更困難的測試是當答案開始移動價值時,AI能夠帶來自己的證據。
#OPG $OPG @OpenGradient $SYN $BEL
在屏幕上,它看起來幾乎無害。
錢包連接了。模型檢查模式。應用說這個賬戶比之前更風險,所以限額發生了變化。
起初,我曾認爲驗證者的工作是問那個AI評分是否看起來合理。
那是錯誤的觀點。
驗證者不是一個人類法官,來判斷答案是否聽起來合理。更冷酷的問題是運行是否按照應用聲稱的方式發生。
這就是OpenGradient讓我明白的地方。
麻煩的部分不是分數本身,而是與分數相關的證據。哪個模型運行了,在哪裏運行,以及什麼證據支持這次運行。沒有這些,應用並沒有真正消除信任。它只是將信任差距轉移到了後端。
我稱之爲證據捆綁問題。
這聽起來像是管道問題,直到用戶質疑限額的變化。
現在建設者有了一個真正的問題。他們不能通過說AI的答案看起來不錯來爲應用辯護。他們必須打開運行,展示結果背後有證據。
在那時,OpenGradient對我來說更有意義。不是作爲人們應該更相信的AI,而是作爲可以在有人問“這是真正的運行嗎?”時帶來證據的AI輸出。
輕鬆的承諾是能回答的AI。
更困難的測試是當答案開始移動價值時,AI能夠帶來自己的證據。
#OPG $OPG @OpenGradient $SYN $BEL
