前阵子,一个做AI产品的朋友深夜给我打了个电话并发了张截图,是他们公司内部某个AI助手跟用户的对话记录。用户问了个减肥食谱的问题,AI答得挺专业,碳水循环、热量缺口,一套一套的。可往下翻了没几句,它突然开始给一个明显有进食障碍倾向的用户推荐“每天控制在800大卡以内”。朋友说他们团队吓得连夜把那模型撤了下去,复盘的时候一群人围着日志看了半天,谁也说不清这个危险的倾向到底是哪一步练出来的。是预训练数据里就藏着毒?是微调阶段那批标注数据带偏了?还是后面做强化学习的时候,有人稀里糊涂给了错误反馈?
“你知道最让我崩溃的是什么吗?”他跟我说,“不是我找不到原因。是我明明知道它病得不轻,却连病根在哪儿都摸不着。”
这话让我琢磨了很久。我们成天把“AI要安全”、“要对齐人类价值观”挂在嘴边,可要是连模型的行为是怎么一步步塑造成形的都追溯不了,所谓“安全”就只是一句贴在墙上的漂亮口号。你没法修好一个你根本不知道它是怎么坏掉的东西。

这让我重新翻了一遍 @OpenLedger 的白皮书,发现在第二章和第四章之间,藏着一条我先前草草扫过、没太当回事的线索。它讲的不是“怎么奖励贡献者”——那个前面聊过了——也不是“谁来决定做什么模型”——那个也聊过了。它讲的是一个更底层的东西:一个模型从呱呱坠地到上线跑起来,它的每一步“成长经历”都被刻在链上,像一本永远丢不了的病历本。
白皮书把这段过程拆成了好几个阶段,合在一起叫“模型生命周期”。但我觉得比起这个学名,它更像一条玻璃做的流水线,或者说,一份AI的“成长档案”。
第一阶段是数据收集。这个前面提过,但有个细节值得重新咂摸一下:白皮书第二章介绍了一个叫Datanets的东西,专门用来收集和归因领域数据。每个数据点提交上去之后,系统会基于质押权重给数据打分,算出一个“可信度分数”。说白了,不是你随便扔点什么数据进来系统都照单全收,你押的钱越多、历史贡献质量越高,你的数据就越被当回事。这等于在数据还没进模型嘴里之前,先过了一遍筛子。等我后面说到模型出事的时候,你就知道这一步有多关键了。
第二阶段是监督微调。白皮书第2.3.2节给了一个数学公式,大概意思就是把收集来的高质量数据一勺一勺喂给模型,让它在特定任务上变得更灵光。这一步不稀奇,现在大家都在干。但有意思的是,在白皮书的设计里,微调用的数据是从哪个Datanet来的、谁提供的、什么时候提交的,全部死死拴在链上。换句话说,如果将来这个模型在哪天发了疯,你是可以一路往回倒的——倒到某一批数据、某一个时间点、甚至某一个人的手笔上。
然后到了最让我觉得“有点意思”的阶段——强化学习加人类反馈,白皮书里叫RLHF。第2.3.3节专门掰扯了这一块:人类验证者给模型的输出打分,模型就照着这个打分来拧自己的行为。好好打分的人能拿到奖励,想捣乱、故意给危险回答打高分的,质押的币会被直接扣掉。

你琢磨琢磨这个设计有多微妙。RLHF本身不是什么新花样,可把它搁在一个“每次打分都有经济后果、每次评价都在链上留痕”的框子里,性质就全变了。在传统的AI公司里头,RLHF反馈者的评价是匿名的、不用担责的,你今天手一滑给一个危险回答打了个高分,拍屁股走人,谁也追溯不到你头上。但在OpenLedger这套系统里,你是押了真金白银的,你的评价质量会反过来咬你的收益和信誉。你对模型的每一次“驯化”,都等于署了名、摁了手印。
这就恰好对上了我朋友撞上的那个死结——模型出了危险倾向,却找不到是谁在哪个关节眼上动了手脚。OpenLedger的设计,从根子上啃的就是这块骨头。模型的行为不是从魔法里变出来的,它是数据、微调、反馈这些环节一层层叠出来的结果。如果每一层都摊在链上,那出了事,追责的路径是清清楚楚的:是不是某批数据有毒?去翻Datanets的记录。是不是微调阶段走偏了?去查微调的版本快照。是不是RLHF阶段有人故意教唆模型?去调反馈者的打分历史和质押记录。每条路都通着,没有一个环节能躺下装死。
说到这儿,代币在这套系统里的角色也变得比想象中更沉。它远不止是“奖励”那么轻飘飘,它扛着的是一种“责任绑定”。你在数据提交阶段押了币,就等于在给自己的数据质量背书,按了血手印。你在RLHF阶段押了币,就意味着你为每一次打分扛着后果。$OPEN 代币在这里更像一枚“经济指纹”——你碰过的每一个动作,都跟着一笔钱和一条永远磨不掉的记录。白皮书第五章把代币的用途归成了提案费、平台费、奖励、推理支付这几类,但我觉得这种分法没完全兜住它真正在干的活儿:它想把“责任”这个从前在AI系统里虚无缥缈的东西,变成一个能被量化、能被追索的经济变量。

当然,这套设计也不是没让人心里打鼓的地方。比方说,RLHF阶段那个“高质量反馈者”到底怎么定义?万一验证者这个群体本身就抱团带着偏见——比如一群人都打心底觉得“一天800大卡挺合理的”——那他们的集体偏见会不会被这套机制反过来放大、加固,而不是被纠正?白皮书没展开聊这个。再比如,链上存证听着很美好,可模型推理每次调用都上链,gas费和延迟怎么扛?白皮书提了一嘴用Rollup做优化,但具体参数还捂着,没亮出来。
不过整体摸下来,我最深的感触是这么个理儿:咱们现在用的AI产品,不管是哪个大厂的聊天机器人,骨子里都是一堆训练好的权重文件。你问它为什么这么答,它不会解释,开发它的公司通常也解释不利索,因为训练过程太绕、环节太多、沾手的人太杂。这不光是个技术难题,更是一种“可审计性”的缺失。#OpenLedger 想干的,就是给AI系统硬塞一个“黑匣子”——不是出了事才手忙脚乱去找的那种,而是打一开始就在那儿悄没声记录着一切的那种。飞机有黑匣子,手术室有全程录像,AI凭什么就光着膀子跑?

我还是那句话,这些只是我个人翻完白皮书后的一堆观察笔记,不构成投资建议。白皮书第四章和第二章那几个小节值得自己沉下心翻一翻,里面关于RLHF惩罚机制和Datanets可信度评分的部分,比我转述的要细密得多。说不定你啃完之后,脑子里浮出来的会是完全不一样的推演。
