最近有个挺有意思的感觉。
以前上网,我们担心的是信息太少。
现在开始担心另一件事了。
信息太多,而且越来越难分辨真假。
一张图片,可能是AI生成的。
一段采访视频,可能是深度伪造。
甚至一篇逻辑完整、数据充分、情绪饱满的行业分析,背后坐着的可能都不是一个人,而是一个Agent。
听着有点科幻对吧。
但坦率的讲,这事儿已经发生了。
最近我在刷X的时候,经常看到一种很微妙的体验。
很多内容第一眼觉得很专业,逻辑也完整,但读着读着总觉得哪里不对劲。。。
太顺了。
顺到不像人。
后来发现,越来越多内容其实已经是AI批量生产。
那问题来了。
如果未来互联网90%的内容都能被无限复制、无限生成,我们到底还能相信什么?
我有时候觉得,未来最贵的东西可能不是内容。
而是内容的「出处」。
谁创造的。
什么时候创造的。
有没有被修改。
训练来源是什么。
贡献者是谁。
这些东西,可能会比内容本身更值钱。
因为当复制成本无限接近于零的时候,真实性反而会变成一种奢侈品。
就像奢侈品行业里,大家买的不是包本身,而是那张鉴定证书。
互联网也许正在进入类似阶段。
内容到处都是。
可信内容越来越少。
事情到这里,一个问题就变得特别重要。
有没有可能建立一套系统,让所有数据都拥有可验证的历史记录?
让每一份数据、每一次贡献、每一个模型输出之间都有关系可查?
最近看到 OpenLedger 的方向,我觉得它想解决的,就是这个问题。
很多朋友可能不知道。
今天绝大部分AI模型,其实有一个挺尴尬的问题。
训练数据从哪里来?
贡献者是谁?
模型输出引用了哪些数据?
坦率的讲,很多时候并不透明。
结果就是,数据提供者没有收益,内容原创者没有归属,模型结果也越来越难验证。
长期来看,这会带来一个很现实的问题。
劣币驱逐良币。
如果原创内容和垃圾内容收益差不多,谁还愿意认真生产高质量数据?
你想想看。
当一个认真研究的人,和一个批量洗稿Agent拿到同样回报的时候,生态会变成什么样?
答案其实挺明显。
大家都会开始卷低成本。
而互联网的可信度,会越来越差。
@OpenLedger 的思路挺像是在给AI世界装一个「来源证明系统」。
数据是谁贡献的。
贡献了多少价值。
模型用了哪些数据。
输出结果和历史记录之间有什么关联。
都尽量做到可追踪、可验证。
说真的,这个方向让我想到一个很大的变化。
过去互联网竞争的是流量。
后来竞争的是算法。
未来,可能竞争的是信任。
谁能证明自己的数据是真的。
谁能证明模型没被污染。
谁能证明结果可信。
谁就更有价值。
当然,这条路一点都不容易。
我自己也还在持续观察。
因为这里面有几个现实挑战。
第一,验证成本。
如果每一份数据都要链上验证,效率怎么解决?
第二,商业化。
企业为什么愿意付费做数据溯源?
第三,规模化。
当AI进入海量推理阶段,系统还能不能承载?
这些问题都是真问题。
不能因为叙事大就自动乐观。
但换个角度想。
每次技术革命,最值钱的基础设施,往往都是最早被忽视的东西。
互联网时代是搜索。
移动互联网时代是支付。
AI时代,会不会是可信数据基础设施?
我也不确定。
但有一点越来越明显。
当AI开始大规模生产内容的时候,真实性会成为新的稀缺资源。
而「出处」,也许会变成下一代互联网最贵的标签。
以上仅代表个人观点,不构成任何投资建议。DYOR, NFA.
