我有个写公众号的朋友,他写了五年,攒了将近两千篇文章,去年他发现自己的文章被某个AI公司的爬虫抓走了,拿去训练模型,他在网上搜了一下,发现他的原话出现在了那个模型的回答里,一字不差。他当时气得不行,去找那家公司投诉,对方回了一封邮件说这属于公开内容的合理使用,不侵权。他跟我说,他写了五年的东西,就这么成了别人的训练数据,他一分钱没拿到,连一个谢谢都没有。
这件事我觉得不是个案,是整个AI时代最大的隐患之一。
过去几年AI发展得很快,但快的背后有一个被刻意忽视的问题,就是这些模型是用谁的数据训练出来的,那些数据的原始贡献者有没有被告知,有没有被补偿。OpenAI、Google、Meta这些公司训练大模型用的数据,来自互联网上几十年积累下来的人类内容,写文章的人、拍照片的人、录视频的人、在论坛上回答问题的人,这些人的劳动成果被打包进了训练集,变成了价值数百亿美元的模型,他们自己什么都没得到,甚至不知道这件事发生过。这不是技术问题,是一个关于谁拥有数据、谁有权使用数据、使用之后该不该付钱的根本问题。
@OpenLedger 在做的事情,是试图在机制层面把这个问题解决掉。它的核心概念叫Payable AI,意思是每次AI模型用了你的数据来训练,你就应该收到一笔钱。这笔钱通过智能合约自动分配,不需要你去找人要,也不需要相信某家公司会主动给你,规则写在链上,触发条件满足了钱就到账。支撑这件事的底层是一个叫Proof of Attribution的系统,它用密码学的方式追踪每一条数据对模型输出的影响,把数据贡献和模型使用之间的关系记在链上,谁贡献了什么、贡献了多少、产生了多少价值,都有可查的记录。Datanets是具体的数据网络,不同领域的数据贡献者可以组成一个Datanet,医疗数据、法律数据、金融数据各自有各自的网络,专业数据被用来训练专业模型,贡献者按照链上记录的贡献度分配收益。
这个设计在机制上比我朋友那种情况高级得多。他的问题是他没有办法证明那家公司用了他的数据,也没有办法量化他的贡献值多少钱,就算打官司也很难赢。OpenLedger的Proof of Attribution如果能跑通,这两个问题都有了答案,贡献是链上记录的,价值是算法算出来的,不需要靠人工核对,也不需要靠数据使用方的良心。
不过我自己看这个项目的时候有些地方没想清楚。Proof of Attribution在技术上能不能真的做到精确追踪,是一个很大的挑战,因为大模型的训练过程本身就不是一条数据对应一个输出那么简单,里面有复杂的权重叠加和涌现效应,怎么把一个模型的某个回答拆解回每一条训练数据的贡献,目前没有公认的成熟方案,OpenLedger说自己解决了这个问题,但具体怎么解决的细节我还没看到足够清楚的技术说明,这是我个人的疑虑,不是定论。
数据质量的把控也是个绕不开的问题。Datanets是开放的,任何人都可以往里面贡献数据,但贡献的数据质量参差不齐,如果没有一套有效的筛选机制,低质量数据混进来会稀释整个网络的价值,最后训练出来的模型不好用,贡献者的收益也会缩水,这是推断,不是已经发生的事。
我那个写公众号的朋友后来没有继续追那家AI公司,他说追不下去,没有精力也没有钱打官司。他跟我说他现在每次写文章都会想,这篇东西会不会又被哪个模型吃掉,但他也没办法,因为现在没有任何机制保护他。OpenLedger想解决的就是这种无力感,它在试图建立一套让数据贡献者有话语权的系统,这件事如果真的做成了,对整个AI行业的数据获取方式是一次根本性的改变。能不能做成,我倾向于谨慎乐观,因为技术难度和利益阻力都不小,但方向是对的,这个时代需要有人去做这件事。$OPEN #OpenLedger

