之前用OpenGradient Chat的時候有個疑問:AI模型推理這麼耗資源,又要GPU又要大顯存,怎麼可能讓鏈上節點都重新跑一遍去驗證,那成本得多高。
翻了一下OpenGradient的架構才發現,它壓根沒打算讓所有節點重跑模型,而是把"跑模型"和"驗證"這兩件事拆開了,這套設計叫HACA,全稱Hybrid AI Compute Architecture。
具體分工是:Inference Nodes負責真正跑AI模型,可能是帶GPU的節點,也可能是通過TEE可信執行環境調用大模型。這些節點算完之後,不是簡單吐出一個結果就完事,而是生成一份密碼學證明,證明這次推理確實是用了指定的模型、指定的數據、指定的流程跑出來的。鏈上的驗證節點不需要重新跑一遍模型,只需要驗證這份證明是否有效。
這個設計解決的核心矛盾是:普通區塊鏈擅長處理轉賬、合約狀態這類輕量計算,但AI推理是重量級計算,如果每個驗證者都要重跑一次模型,網絡根本扛不住。HACA把"算得起"和"驗證得起"分成了兩條獨立的路徑。
我的疑問在於證明本身的可靠性邊界。這份密碼學證明能證明"流程沒有被篡改",但如果GPU節點本身的TEE環境存在硬件層面的漏洞,篡改可能發生在更底層,證明環節根本看不到。這跟之前我對OpenGradient Chat的疑慮是同一個問題:TEE這條路線本身有沒有被攻破,不是密碼學證明能回答的。
HACA這個分工思路我覺得是對的,是在現實約束下做的合理設計。但底層硬件信任這一層,目前看不到完全的答案。
@OpenGradient #opg $OPG