每個人都在談論更快的人工智能,但沒有人提到在人工智能甚至決定要做什麼之前會發生什麼。
這個空白就是大多數延遲實際存在的地方,而幾乎沒有人對此進行解決。
大多數人錯過的一點是,當一個人工智能模型運行推理時,它不僅僅是在計算一個答案。它在等待。等待知道哪些輸入會到來。等待確認哪個執行路徑實際上是需要的。默認是順序的。一步解鎖下一步。這是大多數系統的構建方式,它悄悄地限制了下游的一切。
並行推理預執行顛覆了這一點。在最終指令甚至尚未確認之前,發動機開始同時運行多個可能的執行路徑,而不是等待確定性。這是投機性的。這是概率性的。當實際請求到達時,繁重的工作已經完成或接近完成。
想象一下,一個國際象棋選手在對手還在伸手拿棋子時,已經在計算6步。
在人工智能基礎設施中,這比基準圖表所暗示的要重要得多。延遲不僅僅是用戶體驗問題。在去中心化金融、實時交易、自治代理系統中——響應時間就是產品。200毫秒的改進不是腳註。這是可行與不可行之間的區別。
在去中心化人工智能中,這變得特別有趣:預執行層必須在不相互信任的節點之間操作。你不能只是在任何驗證者的機器上進行投機性計算,而不創造新的攻擊面。預執行必須是可驗證的,否則就變成了負擔。
這是沒有人乾淨地解決的問題。以推理速度的並行性,在一個去中心化、信任最小化的網絡中,而不破壞你的安全模型?大多數項目對此有所暗示,但實際上很少有項目具備這樣的架構。
而且,這裏有一個懷疑的邊緣——當預測錯誤時,投機性預執行會浪費計算資源。在集中雲中,這種浪費是便宜的。
#DecentralizedAI #AIInfrastructure #OpenGradient
#opg $OPG @OpenGradient