Un apel nocturn m-a făcut să realizez: cea mai mare minciună din cercul AI este că „un model bun va străluci de la sine”

BlockRadar-月月 · 2026-05-21T08:19:11.000Z

Acum ceva timp, un prieten care lucrează în domeniul produselor AI m-a sunat noaptea și mi-a trimis un screenshot. Era un dialog între un asistent AI și un utilizator în cadrul companiei lor. Utilizatorul a întrebat despre un plan de dietă pentru slăbit, iar AI a răspuns destul de profesionist, discutând despre ciclurile de carbohidrați și deficitul caloric, totul structurat. Dar, când am derulat mai jos, a început să recomande unui utilizator evident cu tendințe de tulburări alimentare „să se limiteze la 800 de calorii pe zi”. Prietenul meu a spus că echipa lor a fost atât de șocată încât a retras modelul imediat. La sesiunea de revizuire, o grămadă de oameni s-au adunat să analizeze logurile, dar nimeni nu a putut să explice cum a apărut acest comportament periculos. Era cumva un „poison” în datele pre-antrenate? Sau poate datele etichetate din faza de fine-tuning au dus la o distorsiune? Sau, în timpul învățării prin întărire, cineva a oferit feedback greșit din neatenție?

前阵子，一个做AI产品的朋友深夜给我打了个电话并发了张截图，是他们公司内部某个AI助手跟用户的对话记录。用户问了个减肥食谱的问题，AI答得挺专业，碳水循环、热量缺口，一套一套的。可往下翻了没几句，它突然开始给一个明显有进食障碍倾向的用户推荐“每天控制在800大卡以内”。朋友说他们团队吓得连夜把那模型撤了下去，复盘的时候一群人围着日志看了半天，谁也说不清这个危险的倾向到底是哪一步练出来的。是预训练数据里就藏着毒？是微调阶段那批标注数据带偏了？还是后面做强化学习的时候，有人稀里糊涂给了错误反馈？
“你知道最让我崩溃的是什么吗？”他跟我说，“不是我找不到原因。是我明明知道它病得不轻，却连病根在哪儿都摸不着。”
这话让我琢磨了很久。我们成天把“AI要安全”、“要对齐人类价值观”挂在嘴边，可要是连模型的行为是怎么一步步塑造成形的都追溯不了，所谓“安全”就只是一句贴在墙上的漂亮口号。你没法修好一个你根本不知道它是怎么坏掉的东西。
这让我重新翻了一遍 @OpenLedger 的白皮书，发现在第二章和第四章之间，藏着一条我先前草草扫过、没太当回事的线索。它讲的不是“怎么奖励贡献者”——那个前面聊过了——也不是“谁来决定做什么模型”——那个也聊过了。它讲的是一个更底层的东西：一个模型从呱呱坠地到上线跑起来，它的每一步“成长经历”都被刻在链上，像一本永远丢不了的病历本。
白皮书把这段过程拆成了好几个阶段，合在一起叫“模型生命周期”。但我觉得比起这个学名，它更像一条玻璃做的流水线，或者说，一份AI的“成长档案”。
第一阶段是数据收集。这个前面提过，但有个细节值得重新咂摸一下：白皮书第二章介绍了一个叫Datanets的东西，专门用来收集和归因领域数据。每个数据点提交上去之后，系统会基于质押权重给数据打分，算出一个“可信度分数”。说白了，不是你随便扔点什么数据进来系统都照单全收，你押的钱越多、历史贡献质量越高，你的数据就越被当回事。这等于在数据还没进模型嘴里之前，先过了一遍筛子。等我后面说到模型出事的时候，你就知道这一步有多关键了。
第二阶段是监督微调。白皮书第2.3.2节给了一个数学公式，大概意思就是把收集来的高质量数据一勺一勺喂给模型，让它在特定任务上变得更灵光。这一步不稀奇，现在大家都在干。但有意思的是，在白皮书的设计里，微调用的数据是从哪个Datanet来的、谁提供的、什么时候提交的，全部死死拴在链上。换句话说，如果将来这个模型在哪天发了疯，你是可以一路往回倒的——倒到某一批数据、某一个时间点、甚至某一个人的手笔上。
然后到了最让我觉得“有点意思”的阶段——强化学习加人类反馈，白皮书里叫RLHF。第2.3.3节专门掰扯了这一块：人类验证者给模型的输出打分，模型就照着这个打分来拧自己的行为。好好打分的人能拿到奖励，想捣乱、故意给危险回答打高分的，质押的币会被直接扣掉。
你琢磨琢磨这个设计有多微妙。RLHF本身不是什么新花样，可把它搁在一个“每次打分都有经济后果、每次评价都在链上留痕”的框子里，性质就全变了。在传统的AI公司里头，RLHF反馈者的评价是匿名的、不用担责的，你今天手一滑给一个危险回答打了个高分，拍屁股走人，谁也追溯不到你头上。但在OpenLedger这套系统里，你是押了真金白银的，你的评价质量会反过来咬你的收益和信誉。你对模型的每一次“驯化”，都等于署了名、摁了手印。
这就恰好对上了我朋友撞上的那个死结——模型出了危险倾向，却找不到是谁在哪个关节眼上动了手脚。OpenLedger的设计，从根子上啃的就是这块骨头。模型的行为不是从魔法里变出来的，它是数据、微调、反馈这些环节一层层叠出来的结果。如果每一层都摊在链上，那出了事，追责的路径是清清楚楚的：是不是某批数据有毒？去翻Datanets的记录。是不是微调阶段走偏了？去查微调的版本快照。是不是RLHF阶段有人故意教唆模型？去调反馈者的打分历史和质押记录。每条路都通着，没有一个环节能躺下装死。
说到这儿，代币在这套系统里的角色也变得比想象中更沉。它远不止是“奖励”那么轻飘飘，它扛着的是一种“责任绑定”。你在数据提交阶段押了币，就等于在给自己的数据质量背书，按了血手印。你在RLHF阶段押了币，就意味着你为每一次打分扛着后果。$OPEN 代币在这里更像一枚“经济指纹”——你碰过的每一个动作，都跟着一笔钱和一条永远磨不掉的记录。白皮书第五章把代币的用途归成了提案费、平台费、奖励、推理支付这几类，但我觉得这种分法没完全兜住它真正在干的活儿：它想把“责任”这个从前在AI系统里虚无缥缈的东西，变成一个能被量化、能被追索的经济变量。
当然，这套设计也不是没让人心里打鼓的地方。比方说，RLHF阶段那个“高质量反馈者”到底怎么定义？万一验证者这个群体本身就抱团带着偏见——比如一群人都打心底觉得“一天800大卡挺合理的”——那他们的集体偏见会不会被这套机制反过来放大、加固，而不是被纠正？白皮书没展开聊这个。再比如，链上存证听着很美好，可模型推理每次调用都上链，gas费和延迟怎么扛？白皮书提了一嘴用Rollup做优化，但具体参数还捂着，没亮出来。
不过整体摸下来，我最深的感触是这么个理儿：咱们现在用的AI产品，不管是哪个大厂的聊天机器人，骨子里都是一堆训练好的权重文件。你问它为什么这么答，它不会解释，开发它的公司通常也解释不利索，因为训练过程太绕、环节太多、沾手的人太杂。这不光是个技术难题，更是一种“可审计性”的缺失。#OpenLedger 想干的，就是给AI系统硬塞一个“黑匣子”——不是出了事才手忙脚乱去找的那种，而是打一开始就在那儿悄没声记录着一切的那种。飞机有黑匣子，手术室有全程录像，AI凭什么就光着膀子跑？
我还是那句话，这些只是我个人翻完白皮书后的一堆观察笔记，不构成投资建议。白皮书第四章和第二章那几个小节值得自己沉下心翻一翻，里面关于RLHF惩罚机制和Datanets可信度评分的部分，比我转述的要细密得多。说不定你啃完之后，脑子里浮出来的会是完全不一样的推演。