Niepokój dotyczący danych w erze AI, czy odpowiedzi Walrus są wiarygodne?

W-BEN · 2026-01-17T11:21:09.000Z
W ciągu ostatnich sześciu miesięcy najgorętszym tematem w kręgach AI, obok dużych modeli, są dane. Wszyscy mówią, że dane to nowa ropa naftowa, ale niewiele osób zwraca uwagę na to, gdzie te "ropy" są przechowywane, jak je weryfikować i czy można im ufać. Jako osoba, która od dłuższego czasu interesuje się infrastrukturą AI, zauważyłem interesujące zjawisko - wszyscy dyskutują o mocy obliczeniowej i algorytmach, ale ignorują podstawowy problem przechowywania danych. Dopiero niedawno, gdy zapoznałem się z projektem Walrus, zrozumiałem, że na torze przechowywania danych AI są już osoby, które próbują zaproponować inne rozwiązania.
最近半年AI圈最火的话题除了大模型就是数据。所有人都在说数据是新石油，但很少有人在意这些"石油"存在哪里、怎么验证、能不能信任。作为一个长期关注AI基础设施的人，我发现一个有意思的现像——大家都在讨论算力和算法，却对数据存储这个底层问题视而不见。直到最近接触了Walrus这个项目，才意识到原来在AI数据存储这条赛道上，已经有人在尝试给出不一样的解决方案了。
现在AI系统面临的数据问题其实挺严重的。训练一个大模型需要海量数据集，这些数据通常存在Google Cloud、AWS S3这种中心化平台上。表面看没什么问题，但细想就会发现隐患——数据来源可验证吗？有没有被篡改？存储服务商倒闭了怎么办？更关键的是，当AI模型做出决策时，你怎么证明它用的数据是可信的？
这个问题在金融、医疗这种对可验证性要求高的领域尤其突出。一个AI交易系统做了个决策，结果亏了一大笔钱，事后调查发现是因为训练数据里混入了错误信息。但这个错误信息从哪来的？什么时候被篡改的？在中心化存储系统里，这些问题很难回溯。你只能相信服务商说的——我们有备份、有审计、有安全措施。但这种信任本质上是黑箱，出了问题就只能自认倒霉。
Walrus试图解决的就是这个信任问题。它的核心思路是把数据存储去中心化，并且提供可验证的存在性证明（proof of availability）。简单说就是，数据被切片后分散存在多个节点上，每个切片都有加密哈希，你可以随时验证数据是否完整、是否被篡改。这种设计对于AI应用来说有几个明显的好处。
第一个好处是数据溯源变得可能。在Walrus上存储的每一块数据都有blob ID，这个ID是通过Merkle树计算出来的，具有唯一性和防篡改特性。如果你用某个数据集训练了AI模型，可以把blob ID记录在智能合约里，任何人都能验证这个模型用的是哪个版本的数据，数据有没有被修改过。这种透明性在传统存储系统里基本不可能做到。
第二个好处是数据独立性。传统AI项目高度依赖云服务商，一旦服务商涨价、政策变化或者干脆倒闭，整个项目就会受影响。Walrus因为是去中心化网络，不受单一实体控制。只要网络还在运行，数据就在那儿。这对于长期AI研究项目来说是个重要保障——你不用担心五年后某个云平台停服，导致历史数据全部丢失。
第三个好处是跟区块链的天然集成。现在很多人在讨论AI Agent——就是能自主行动的AI系统。这些Agent需要在链上执行交易、管理资产，同时又需要访问大量链下数据（比如市场行情、历史记录）。Walrus因为基于Sui区块链，可以直接用智能合约来控制数据访问权限。比如设置一个Agent只能读取它付费订阅的数据集，或者根据链上条件动态调整数据访问范围。这种链上链下的无缝连接，在中心化存储方案里要靠大量的桥接和验证，复杂且脆弱。
我看到的一个实际案例是Talus AI。他们在Sui上做AI Agent平台，选择Walrus作为默认的数据存储层。理由很简单——AI模型通常很大（几个GB到几十GB），直接存在链上成本高到离谱，但存在中心化平台又失去了可验证性。Walrus提供了一个中间方案：数据存在链下但有链上证明，成本可控且可验证。这个思路其实代表了AI+区块链融合的一个方向——不是把所有东西都塞到链上，而是链上管理、链下存储、哈希验证。
不过理想很丰满，现实很骨感。Walrus在AI数据存储这个场景下也有不少局限。最明显的是隐私问题。AI训练数据经常包含敏感信息——医疗记录、金融数据、个人隐私。但Walrus默认所有blob都是公开的，任何人知道blob ID就能下载。虽然官方建议先加密再上传，但这又带来了密钥管理的麻烦。对于AI项目来说，要在数据科学家之间共享加密数据集，还得保证密钥不泄露，这个流程非常复杂。
另一个问题是检索效率。AI训练经常需要随机访问数据集的不同部分——比如做数据增强、采样、交叉验证。Walrus虽然读取单个blob很快，但如果你要频繁访问一个巨大数据集的不同片段，就需要反复从聚合器拉取数据。这个过程的延迟和带宽开销可能会成为瓶颈。我测试过用Walrus存一个100GB的图像数据集，训练时每个epoch都要从网络读取，速度明显比本地SSD慢。当然你可以在训练节点上做缓存，但这又增加了架构复杂度。
成本也是个现实考量。虽然Walrus现在有补贴很便宜，但AI数据集动辄几TB甚至几十TB，长期存储的费用累积起来也不是小数目。而且纠删码虽然比复制便宜，但还是有4-5倍的开销。对于预算有限的研究团队来说，是否值得为了可验证性支付这个额外成本，需要仔细权衡。
还有个容易被忽视的问题是合规性。AI领域有很多监管要求，比如GDPR的"被遗忘权"——用户有权要求删除自己的数据。但Walrus的设计里删除功能是有限的，blob到期后会自然消失，但你不能主动删除还在存储期内的数据。这对于需要满足合规要求的AI应用来说是个硬伤。虽然你可以通过不续费来实现"软删除"，但时间粒度是按epoch（14天）计算的，反应速度不够快。
从AI+区块链的大趋势看，Walrus的思路确实抓住了一些痛点。可验证数据、去中心化存储、链上集成，这些都是AI向Web3演进过程中必须解决的问题。但距离真正的大规模应用，还有很长的路要走。现在的AI开发者大多数还在用传统工具链——PyTorch、TensorFlow、Colab，数据存在S3或者Google Drive。要让他们迁移到Walrus，需要提供足够好的开发体验和明确的价值主张，而不仅仅是技术上的优越性。
我观察到一个有意思的趋势——越来越多的AI项目开始考虑数据主权问题。尤其是在数据监管趋严的背景下，把训练数据存在可审计、可验证的去中心化平台，可能会成为一个合规优势。Walrus如果能抓住这个点，提供针对AI场景优化的工具和服务，可能会找到自己的细分市场。比如做一个专门的AI数据集市场，所有数据都存在Walrus上并带有加密和权限控制，AI开发者可以按需订阅付费。这种模式在传统世界里已经有了（Kaggle、Hugging Face），但去中心化版本还没有成熟的玩家。
还有一个值得期待的方向是联邦学习。这个技术允许多方在不共享原始数据的情况下协作训练AI模型，只交换模型参数。Walrus可以用来存储加密的模型更新和梯度信息，配合智能合约来管理参与方的权限和激励。这种设计特别适合医疗、金融等数据敏感但又需要协作的领域。当然这需要Walrus在加密和隐私保护功能上做更多增强。
最后想说的是，AI数据存储这个问题的本质不只是技术，更是信任。中心化方案的问题不是技术不够先进，而是信任成本太高——你得相信云服务商不会作恶，相信它们的系统不会出故障，相信它们不会随意涨价或改变服务条款。Walrus提供的是一种备选方案——用密码学和去中心化来降低信任成本。这个方向是对的，但实现起来需要在性能、成本、易用性上做大量工程优化。
AI时代的数据焦虑不会自动消失，但像Walrus这样的项目至少让我们看到了另一种可能性。数据不一定要被Google、AWS这些巨头垄断，也不一定要以牺牲可验证性为代价来换取便利。如果Walrus能持续迭代，解决隐私、性能、生态这些实际问题，它可能真的会成为AI基础设施中不可或缺的一环。但这需要时间，也需要整个行业对数据主权和可验证性问题有更深的认识。
@Walrus 🦭/acc  $WAL 
WALUSDT
Perp
0.1558
-2.13%
 #Walrus 
AI时代的数据焦虑，Walrus给出的答案靠谱吗

Najnowsze wiadomości