我每天在手机上打的字、划的圈、点的赞,都在被某个大模型悄悄收走。这些东西喂出了ChatGPT,喂出了Claude,喂出了那些市值几千亿美金的AI公司。可我什么都没拿到。别说分红了,连一句谢谢都没听到过。
前几天一个做算法的朋友跟我说了一句话:你们在AI行业里叫“数据矿工”,挖的数据比比特币矿工值钱多了。区别是人家好歹有POW,你们连张收据都拿不到。
后来我在社交媒体上刷到Polychain投了一个叫#OpenLedger 的项目,顺手去扒了白皮书。看第一遍只是觉得概念有点意思,看到第三遍的时候我盯着屏幕发呆——这不就是把我那个想了很久的问题写成了代码吗。
#OpenLedger 的核心机制叫归因证明。名字学术,逻辑却不复杂:你贡献的每一条数据,在链上生成哈希指纹。AI模型调用这条数据时,调用记录与指纹绑定上链,智能合约自动执行分润。不需要平台审核,不需要人工对账,代码即结算。这相当于给每一份数据开了一张链上发票,谁用了、用了几次、该分多少钱,全都写死在账本里。
但更值得拆开来看的,是这套机制的归因权重算法。每次AI推理生成输出后,系统提取推理过程中的token窗口,用N-gram匹配扫描数据块,与Datanets里的数据做比对。匹配结果带上置信度、跨度长度和频率参数,最终算出每份数据对这次输出的具体贡献权重。医学影像影响了医学诊断查询,权重就高。上传的是灌水标注,调用归零,链上污点永久留痕。智能合约拿着这套权重自动分润,数据提供者、模型微调者、验证节点按贡献分OPEN。
官方团队在采访中说,这套技术受到了斯坦福教授James Zou等人发表的论文DATAINF的启发,论文详细说明了数据对AI模型输出结果的具体影响权重,OpenLedger就是把这套学术理论搬到了链上。
但这套算法有一个白皮书没有给出明确答案的问题:精度上限。当一张AI图像与训练集中数万张图片都存在不同程度的相关性时,归因拆分的精度会面临挑战。目前的方案是批处理、链下证明和滚动记录来优化,但大规模压力测试下的误差范围没有公开。如果拆分精度在某个调用量级上开始衰减,这套激励机制的根基——谁贡献多谁分得多——会从精确公式退化成近似值。近似到哪一步开始不公平,目前没有数据。
代币经济模型也在往这个方向靠。OPEN总量10亿枚,社区和生态分走61.7%,解锁周期四年。关键细节在白皮书第7.3节:社区奖励释放速度与全网归因调用次数挂钩。调用量低,释放慢。调用量高,释放快。通胀不是固定增发,是被真实需求拉动的。但另一个细节同样关键——释放放慢的底线在哪。如果调用量长期低迷甚至归零,释放能不能真正停住,还是只是放慢但永远在流。释放能归零,才是真正的反稀释。只是放慢,迟早还是要把池子填满。
HuggingFace上堆满了开源模型,但99%的数据集贡献者一分钱拿不到。区别不在技术,在结算层的缺失。OpenLedger在模型调用和数据贡献之间嵌进了一层链上自动分润,数据集的授权不是一次性卖断而是持续分润,数据拥有权被铸成可转让可销毁的链上资产,每一次调用模型的结果都能反向追溯到具体的贡献区块。这不是功能的叠加,是分配权的转移。
但@OpenLedger 这套系统还没大规模跑起来。测试网日均归因调用约5000次,日手续费收入200美元,对比每月近千万枚的解锁抛压,买盘深度远远不够。经济飞轮要转起来,得同时解决高质量数据供给、真实模型需求和代币价值支撑三重问题,做不好任何一环都可能卡在半路。现在的主流AI产业链里,前端做模型的拿走了绝大部分话语权,后端数据供应商常常淹没在估值边际。一旦归因证明机制得到大规模采用,传统的数据中介机构会被迅速削弱,遍布全球的零散贡献者用个人数据就能赚钱的草根生态将直接建立供给纽带。
归因证明把一个喊了十几年的口号——数据贡献者应该拿到钱——写进了链上代码。但代码跑通和经济跑通之间,还差着归因精度的规模上限、释放放慢的底线参数、需求端的真实规模这三个明确答案。这三个答案填上之前,它是一套好机制。填上之后,才是一盘好生意。
