现在的AI模型训练用的什么数据,圈里人都知道。就是那种从网上随便扒的、不知道能不能商用、原作者连个通知都收不到的“公开数据”。两年前我帮一个小型量化团队收集链上地址行为标签,从四个不同渠道拿了同一批地址的数据,结果是四个渠道给出来四套完全对不上的标签。一个说是高频DeFi扫地僧,一个说是普通转账用户,第三个更离谱,直接标成“疑似女巫”,第四个干脆没标记。我当时对着屏幕愣了好几分钟,后来花了好几周逐条手工核对,最后发现根本问题不是数据量不够,而是这些数据从它产生的那一刻起,就没有一个能让人信得过的“出生证明”。
因为这件事,我对“可信数据来源”这几个字有了执念。上周我花了三个晚上从头到尾扒了@OpenLedger 的官方文档和代币经济学白皮书。坦白讲第一个晚上看简介的时候我差点就关了,AI+区块链这种组合口号喊了两年了,多数项目看了也就看了。但第二晚翻到他们那个归因证明的官方文档时,有一张解锁时间表让我瞬间清醒了。#openleder
事情是这样的。OpenLedger的代币总供应量是10亿枚,上不增发,这个在很多项目中都算比较克制的。关键在解锁结构上,TGE时只放出21.55%进入流通,剩下的慢慢释放。团队和投资人有一个12个月的锁仓期,之后分36个月线性解锁,每月投资者解锁大约508万枚,团队解锁大约416万枚,一直持续到第48个月。这是我直接从官方解锁时间表里翻出来的原话。
我在Excel里拉了一个表算了一下。假设后面生态需求没有显著增长,这些每月近千万的新增流通量一旦进入市场,需要多少真实使用场景来承接,这笔账你们自己算。而且社区和生态分配占了总供应量的61.71%,这部分是从第一个月就开始线性解锁的,总额高达3.816亿枚。这意味着在团队和投资人大规模解锁之前,已经有大量代币在持续释放给数据贡献者和模型训练者。理论上这是对活跃参与者的正向激励,但实际效果要看有多少人在真正干活。
这些信息不是我自己瞎猜的,全部是官方基金会文档里白纸黑字写着的。另外根据官方基金会页面,OpenLedger和Chainbase有一个官方层面的合作,把Chainbase整理好的多链结构化数据喂进OpenLedger的归因证明系统,这样AI Agent在决策时能知道自己拿到的数据是从哪来的、谁贡献的、是否被篡改过。我目前看到的信息主要以这个合作为主。
还有一个让我觉得既佩服又头疼的地方。他们的归因证明系统用一种叫Infini-gram的方法来处理大语言模型的溯源问题。官方说的是会给每个Token标出它在训练数据里的精确匹配来源,而且不只是看固定的n元组窗口,而是用后缀数组动态找最长的匹配序列。这其实非常难搞。因为大模型训练数据动辄上万亿Token,你要在海量数据里实时找出某个输出的精确来源,计算量是天文数字。官方说在1.4万亿Token的红睡衣数据集里查任意n元组只需要20毫秒,存储成本大概每个Token 7字节。我没法实际验证这个数字,但至少说明他们在数据结构上想了一些办法。
不过,我还是得说句大实话。关于验证节点的具体防作恶流程,比如节点怎么互相挑战、挑战成功怎么罚质押代币,我这次翻完所有公开文档后仍然没有找到官方的程序性描述。官方只说节点质押OPEN参与网络治理,节点收入与在线率、响应延迟和验证准确性挂钩。至于数据贡献者上传的数据具体怎么验证、节点作恶怎么追责,这个层面的设计细节我在公开信息里确实没看到。不是说不存在,只能说目前不是公开信息,或者我还没找到那页。
关于OpenLedger主网启动的具体时间,我看到了两种说法。有一批报道说2025年9月主网上线,但The Block在11月的报道说OpenLedger在2025年11月正式启动了OPEN主网。Gate Blog的同名深度解析明确写了2025年9月主网正式上线。这类跨平台信息不一致,核心问题是AI数据归因的底层方向是对的,但执行层面到底推到了什么程度,不同来源的表述有差异。
我说这些真的不是为了挑刺,而是觉得OpenLedger要解的这个题确实值得关注。AI训练数据的溯源问题和贡献者的利益分配问题,长期来说是需要有一个严肃方案来应对的。他们把归因证明做进底层基础设施,给数据贴上链上可验证的信用标签,并且让每个使用你数据的模型在推理时自动给你分钱,这个方向我是认可的。但代币释放的供需平衡、验证节点的防作恶机制、开发者生态的厚度,这几个都是真刀真枪摆在那里的硬骨头,谁也别说闭眼就能绕过去。我会一直盯着链上解锁数据和PoA的调用频率。
至于OPEN具体值多少钱,我从来不看K线。你们自己决定。#OpenLedger $OPEN


