大家好,我是寧凡。

凡凡最近刷到一組數字,真的有點坐不住了。2026年5月,Epoch AI甩出一份報告:大語言模型可能在2026到2032年之間,把互聯網上所有的公開文本數據全部耗盡。與此同時,中國信通院的報告更激進,直接預測2026年大型語言模型訓練就可能把可用文本數據喫幹抹淨。

這不是什麼遙遠的科幻場景,這就是正在發生的事。AI行業面臨的不只是版權官司——5月5號愛思唯爾聯合五大出版商集體起訴Meta,指控Llama訓練大規模盜版書籍;更深層的危機是:高質量數據正在見底。互聯網公開數據這條低垂的樹枝快被薅禿了,而真正值錢的垂直領域數據——醫療影像、金融交易記錄、法律判例、工業參數——全鎖在機構內部,AI根本拿不到。

說人話就是:AI的“糧食危機”來了。而且不是糧食變貴了,是糧食真的快沒了。

這也是凡凡最近一直盯着@OpenLedger 的原因。這個項目沒有在講什麼“去中心化GPT”的老套故事,它直接在數據源頭動手——這就是他們的Datanets體系。

Datanets,可以理解成“數據合作社”。舉個例子,醫療影像領域可以開一個專門的Datanet,全球的醫生、醫院、研究機構把脫敏的影像數據放進去,貢獻者按數據質量和被調用次數拿$OPEN報酬,模型開發者付費訪問這些經過驗證的高質量數據集來訓練專用模型。金融交易、工業製造、法律合同——每個垂直領域都可以開自己的Datanet,把那些鎖在機構深處的“暗數據”釋放出來。

凡凡覺得,這套邏輯之所以成立,根源在於它捅破了一個窗戶紙。現在全球有海量高質量數據,但這些東西被鎖在“數據孤島”裏——機構之間的標準不互通、數據格式不統一、跨平臺共享幾乎沒有機制。OpenLedger要做的不是自己去收集數據,而是提供一套基礎設施,讓任何一個社區都可以圍繞特定領域的數據“自組織”。

它的核心武器,就是之前凡凡聊過的Proof of Attribution(歸因證明) ——但今天凡凡想換個角度,從“數據供應鏈”的視角來看這件事。

在傳統AI訓練裏,數據從哪來、經過了誰的手、被怎麼處理、最終影響了模型的哪一部分輸出——全部是一筆糊塗賬。數據貢獻者被一次性買斷,模型賺了錢跟數據提供者半毛錢關係都沒有。

而在OpenLedger上,每一條數據從上傳那一刻就被鏈上哈希錨定,標註和驗證的全過程被記錄,模型訓練時的訓練日誌加數據集引用一起上鍊,最終推理輸出時歸因引擎自動追溯哪些數據點貢獻最大,然後通過智能合約把報酬分下去。數據貢獻者不是被買斷,而是擁有了“數據股權”——只要你的數據還在被使用,你就持續有收益。

這整個鏈條,OpenLedger叫它“可驗證數據管道”。凡凡給它起個更接地氣的名字:數據的“陽光供應鏈”。從採集到清洗到驗證到傳輸,每一環都在鏈上可審計,任何惡意數據污染或者來源不明的數據都能被第一時間揪出來。

而且OpenLedger不是一個人在戰鬥。他們和Story Protocol在2026年1月搞了個大動作——聯合推出了AI訓練數據的版權清算和創作者自動付費新標準。具體怎麼玩的?Story那邊管IP註冊和許可條款定義,OpenLedger這邊管執行和驗證——授權內容在訓練中被使用時,加密驗證IP使用情況,然後自動把錢打給版權方。愛思唯爾那種維權維到法院的慘狀,在OpenLedger這套體系下可能根本不會發生。

再聊聊OPEN在整盤棋裏的位置。凡凡看了一圈OPEN在整盤棋裏的位置。凡凡看了一圈OPEN的實用場景,發現它真的不只是“治理代幣”四個字糊弄你——數據貢獻者通過歸因引擎拿OPEN報酬,模型開發者註冊和發佈模型燒OPEN報酬,模型開發者註冊和發佈模型燒OPEN當Gas,用戶調用模型推理也用$OPEN支付,一部分給模型方、一部分給上游數據貢獻者,還有一部分進公共基礎設施基金。這整個經濟循環串起來,就是OpenLedger說的“可支付AI”——AI的每一環都有人幹活、每一環都有人拿錢,經濟活動不再是巨頭壟斷的遊戲。

凡凡一直覺得,Web3最性感的敘事,不是再造一個賭場,而是用技術去解決真實世界的問題。AI數據枯竭這個問題,真不是危言聳聽——如果現有的數據生產關係不改變,AI的發展天花板肉眼可見。OpenLedger能不能成爲那個破局者,凡凡不敢打包票,但它給出來的這套方案,至少把“數據怎麼產、怎麼分錢”這件事往前推了一大步。

你們覺得呢?數據饑荒是真的來了還是危言聳聽?去中心化數據到底能不能打?評論區聊聊,凡凡在線等。別忘了關注@OpenLedger $OPEN 的故事,我們邊看邊聊!

#OpenLedger