L'AI sta quasi esaurendo la conoscenza umana, perché OpenLedger dice "non ti preoccupare per i dati"?

宁凡 · 2026-05-22T09:50:19.000Z

Ciao a tutti, sono NingFan. Recentemente, FanFan ha visto una serie di numeri e non riesce a stare fermo. Nel maggio 2026, Epoch AI ha pubblicato un rapporto: i grandi modelli linguistici potrebbero esaurire tutti i dati testuali pubblici su Internet tra il 2026 e il 2032. Nel frattempo, il rapporto dell'Accademia Cinese delle Telecomunicazioni è ancora più radicale, prevedendo che nel 2026 l'addestramento di grandi modelli linguistici potrebbe esaurire completamente i dati testuali disponibili. Non stiamo parlando di un lontano scenario fantascientifico, ma di ciò che sta accadendo ora. Il settore dell'AI non affronta solo cause legali sui diritti d'autore: il 5 maggio, Elsevier ha fatto causa collettiva a Meta insieme a cinque grandi editori, accusando Llama di addestrarsi su un vasto numero di libri piratati; la crisi più profonda è: i dati di alta qualità stanno finendo. I dati pubblici su Internet sono come un ramo basso che sta per essere strappato, mentre i veri dati preziosi nei settori verticali - immagini mediche, registrazioni di transazioni finanziarie, sentenze legali, parametri industriali - sono tutti bloccati all'interno delle istituzioni, e l'AI non può accedervi.

大家好，我是宁凡。
凡凡最近刷到一组数字，真的有点坐不住了。2026年5月，Epoch AI甩出一份报告：大语言模型可能在2026到2032年之间，把互联网上所有的公开文本数据全部耗尽。与此同时，中国信通院的报告更激进，直接预测2026年大型语言模型训练就可能把可用文本数据吃干抹净。
这不是什么遥远的科幻场景，这就是正在发生的事。AI行业面临的不只是版权官司——5月5号爱思唯尔联合五大出版商集体起诉Meta，指控Llama训练大规模盗版书籍；更深层的危机是：高质量数据正在见底。互联网公开数据这条低垂的树枝快被薅秃了，而真正值钱的垂直领域数据——医疗影像、金融交易记录、法律判例、工业参数——全锁在机构内部，AI根本拿不到。
说人话就是：AI的“粮食危机”来了。而且不是粮食变贵了，是粮食真的快没了。
这也是凡凡最近一直盯着@OpenLedger  的原因。这个项目没有在讲什么“去中心化GPT”的老套故事，它直接在数据源头动手——这就是他们的Datanets体系。
Datanets，可以理解成“数据合作社”。举个例子，医疗影像领域可以开一个专门的Datanet，全球的医生、医院、研究机构把脱敏的影像数据放进去，贡献者按数据质量和被调用次数拿$OPEN报酬，模型开发者付费访问这些经过验证的高质量数据集来训练专用模型。金融交易、工业制造、法律合同——每个垂直领域都可以开自己的Datanet，把那些锁在机构深处的“暗数据”释放出来。
凡凡觉得，这套逻辑之所以成立，根源在于它捅破了一个窗户纸。现在全球有海量高质量数据，但这些东西被锁在“数据孤岛”里——机构之间的标准不互通、数据格式不统一、跨平台共享几乎没有机制。OpenLedger要做的不是自己去收集数据，而是提供一套基础设施，让任何一个社区都可以围绕特定领域的数据“自组织”。
它的核心武器，就是之前凡凡聊过的Proof of Attribution（归因证明） ——但今天凡凡想换个角度，从“数据供应链”的视角来看这件事。
在传统AI训练里，数据从哪来、经过了谁的手、被怎么处理、最终影响了模型的哪一部分输出——全部是一笔糊涂账。数据贡献者被一次性买断，模型赚了钱跟数据提供者半毛钱关系都没有。
而在OpenLedger上，每一条数据从上传那一刻就被链上哈希锚定，标注和验证的全过程被记录，模型训练时的训练日志加数据集引用一起上链，最终推理输出时归因引擎自动追溯哪些数据点贡献最大，然后通过智能合约把报酬分下去。数据贡献者不是被买断，而是拥有了“数据股权”——只要你的数据还在被使用，你就持续有收益。
这整个链条，OpenLedger叫它“可验证数据管道”。凡凡给它起个更接地气的名字：数据的“阳光供应链”。从采集到清洗到验证到传输，每一环都在链上可审计，任何恶意数据污染或者来源不明的数据都能被第一时间揪出来。
而且OpenLedger不是一个人在战斗。他们和Story Protocol在2026年1月搞了个大动作——联合推出了AI训练数据的版权清算和创作者自动付费新标准。具体怎么玩的？Story那边管IP注册和许可条款定义，OpenLedger这边管执行和验证——授权内容在训练中被使用时，加密验证IP使用情况，然后自动把钱打给版权方。爱思唯尔那种维权维到法院的惨状，在OpenLedger这套体系下可能根本不会发生。
再聊聊OPEN在整盘棋里的位置。凡凡看了一圈OPEN在整盘棋里的位置。凡凡看了一圈OPEN的实用场景，发现它真的不只是“治理代币”四个字糊弄你——数据贡献者通过归因引擎拿OPEN报酬，模型开发者注册和发布模型烧OPEN报酬，模型开发者注册和发布模型烧OPEN当Gas，用户调用模型推理也用$OPEN支付，一部分给模型方、一部分给上游数据贡献者，还有一部分进公共基础设施基金。这整个经济循环串起来，就是OpenLedger说的“可支付AI”——AI的每一环都有人干活、每一环都有人拿钱，经济活动不再是巨头垄断的游戏。
凡凡一直觉得，Web3最性感的叙事，不是再造一个赌场，而是用技术去解决真实世界的问题。AI数据枯竭这个问题，真不是危言耸听——如果现有的数据生产关系不改变，AI的发展天花板肉眼可见。OpenLedger能不能成为那个破局者，凡凡不敢打包票，但它给出来的这套方案，至少把“数据怎么产、怎么分钱”这件事往前推了一大步。
你们觉得呢？数据饥荒是真的来了还是危言耸听？去中心化数据到底能不能打？评论区聊聊，凡凡在线等。别忘了关注@OpenLedger ，$OPEN  的故事，我们边看边聊！
#OpenLedger