Il modello AI che usi, nemmeno lui sa da dove viene

老青蛙BNB · 2026-05-25T08:40:57.000Z

Recentemente ho aiutato un amico che lavora nel settore dei servizi aziendali a fare una due diligence tecnica. La sua azienda voleva integrare un modello AI che si dice specializzato nella revisione dei contratti, ma il prezzo era piuttosto alto e prevedeva costi per numero di chiamate. Ho dato un'occhiata ai materiali forniti e ho notato un problema serio: la fonte dei dati di addestramento di questo modello era completamente poco chiara. Da un lato dicevano di aver utilizzato un database di contratti standard del settore, dall'altro affermavano di usare milioni di annotazioni manuali, ma quando ho chiesto la fonte specifica, tutto era vago. Alla fine, il mio amico ha deciso di non rischiare; ha detto che se qualcosa andasse storto, la sua azienda ne avrebbe dovuto rispondere.

我前段时间帮一个做企业服务的朋友做技术尽调，他们公司想接入一个号称专门做合同审核的AI模型，对方报价不便宜，要按调用次数收费。我看了一圈对方提供的资料，发现一个很要命的问题，就是这个模型的训练数据来源完全说不清楚。对方一会儿说用了行业标准合同库，一会儿说用的是百万级的人工标注，问到具体来源全是含糊不清。我朋友最后还是没敢用，他说这种东西万一出问题，他们公司是要担责任的。 
AI模型这东西在2026年的市场里已经像菜市场的蔬菜一样多，但绝大多数都没有像样的身份证。你不知道它是谁训练的，用了什么数据，经过了什么改动，跟同名的模型有没有关系。这种情况下企业要用AI做关键业务，等于是闭着眼睛吃东西，吃下去拉肚子都不知道找谁。 
@OpenLedger 做的事，本质上是给AI模型办身份证。 
这个机制我自己研究了一下，挺有意思。OpenLedger上每一个模型都会有一个链上记录，它基于哪个基础模型微调的，用了哪几个Datanet里的数据，每次版本迭代改了什么，这些信息全都写在链上，不可篡改，任何人都可以查。以前模型说不清楚来路，你只能相信厂商告诉你的，OpenLedger的Proof of Attribution把这件事改了，让模型有了一份完整的信息，谁做的、改过几次，全都摆在那里。 
2025年下半年开始全球对AI合规的要求越来越严，欧盟的AI Act已经开始执行，美国和中国的相关法规也在陆续推进，企业用AI做关键业务时第一个被要求提供的就是模型的可追溯性，监管要看你这个模型从哪来，训练数据是不是合规获得的。Web2世界里这种证明全靠厂商自己出文件，但厂商出的文件大家都懂，监管也不傻，他们要的是第三方可以验证的证据。OpenLedger的链上登记机制刚好解决这个问题，它提供的不是厂商自己的承诺，是任何人都可以独立验证的链上记录。 
我觉得这件事还有一层更深的意义。AI模型现在的二级市场基本是零，你训练了一个模型卖给客户，客户用完了一次性付费，模型本身没有持续的产生价值。OpenLedger的链上登记让模型变成了可追溯的资产，这意味着模型可以被定价、被交易、被组合使用，一个基于#OpenLedger 的模型如果在某个细分领域被证明效果好，它的链上调用记录就是它的证明，新的客户看到这些记录就敢付钱用，老的开发者看到这些记录就愿意基于它做衍生模型。 
不过这套机制要真的成立，有几个问题绕不开。最现实的是模型本身的真实性怎么验证，链上记录可以保证记录本身不可篡改，但如果一开始上链的就是假信息，比如某个开发者声称自己用了某个Datanet的数据但实际没用，OpenLedger的Proof of Attribution需要有一套类似审计的机制来对照实际情况。 
版本管理也是个绕不开的难题。AI模型需要持续更新数据和调整参数，每次更新都涉及链上记录的版本变化，如果版本管理太复杂，普通用户和企业可能根本看不懂这个模型是不是当前最新的安全版本，水仙不开花，装蒜，记录是有了但看不懂等于没有，链上数据再透明也得有人能解读才行，这个产品体验层面的事情比纯技术层面的事情更难解决。 
我那个做企业服务的朋友后来跟我说他在关注OpenLedger，他说如果未来模型供应商都能提供$OPEN 上的链上登记证明，他会优先考虑这种供应商，因为合规审查能省下很多力气。这种来自企业端的真实需求才是OpenLedger这套机制最大的价值所在，是真的解决了别人在工作里碰到的痛点。