ZKML 权威指南（2025）

人工智能系统正在做出影响资金流向、医疗结果和自主行动的决策，但是，如何验证人工智能是否真的计算出了它声称要计算的内容？它是否使用了它承诺使用的模型？它是否在此过程中泄露了你的数据？
实现可验证人工智能的方法有很多种，例如可信硬件、共识机制以及在安全区域内重新执行，每种方法都有其优点，但最有趣的方法是零知识机器学习（ZKML），它通过纯数学和最小信任假设来解决验证问题。
内容大纲
Succinct 验证：强大的计算能力，小额的收据
隐私：零知识真正有用的部分
可编程货币：为什么代理需要证明
领域概览：谁在建造什么
早期阶段（2022-2023）概念验证
Halo2 应用于 ZKML
爆炸（2024-2025）：选择你的战士
技术现实
应用案例：究竟什么才真正值得证明？
基本过滤器
DeFi：资金的聚集地
无需信任的代理
医疗保健：隐私与可审计性
游戏：可证明的公平性
模型市场：机器学习即服务（MLaaS）验证
AI 记忆
2025 年还缺少什么
2026 年 ZKML 的预测
硬件浪潮
证明系统：更优的数学
运算符覆盖范围爆炸式增长
成本曲线变化导致用例演化
归根结底
无聊是好事，无聊意味着它正在变得真实。
听着，我们要跳过硬件和重执行方法 - TEE、共识机制等等，不是因为它们不好，而是因为对我来说，有趣的问题是纯粹的数学验证：将零知识证明应用于机器学习 - ZKML。
三年前，这个领域在“行业”中几乎不存在，后来，Modulus Labs、EZKL、Daniel Kang 博士、Cathie So 博士以及其他几位人士出现，提出“让我们让人工智能可验证”，立即出现的反对意见显而易见：零知识证明虚拟机（zkVM）的开销是传统虚拟机的 10 万倍到 100 万倍，在零知识证明中运行推理就像在混凝土中游泳一样困难。
那为什么要这么做呢？
事实证明，ZKML 值得付出努力的原因有三点。
Succinct 验证：强大的计算能力，小额的收据
ZKML 之所以有效，正是因为这种不对称性：计算成本可能很高，而验证成本可能很低。
AWS 会在 GPU 集群上运行您的模型一小时，然后，它会向您的手机发送一个加密收据，验证过程只需 50 毫秒，您的手机从数学角度知道 - 也就是知道 - 计算已正确完成，无需任何信任。
这开启了全新的领域：无需信任的代理工作流程，你手机上的代理与公司数据中心的代理通信，后者再与以太坊上的代理通信，最终与 Solana 上的代理通信，每个代理都像接力赛一样传递加密信息，实现无需信任的代理商业运作，整个推理“链”的端到端可验证。
如果没有它呢？一个受损的代理就会破坏整个工作流程，在资金转移或医疗决策等自主系统中，这并非漏洞 - 而是一场即将发生的灾难。
隐私：零知识真正有用的部分
ZKP 中的 ZK 表示证明不会泄露任何信息。
医院利用患者数据进行诊断，并生成证明，现在，他们无需泄露任何患者记录，即可向监管机构证明“我们使用了经 FDA 批准的模型并获得了此结果”，数据保持私密，而证明则公开。
或者：一家银行证明其欺诈检测模型运行正常，但并未透露模型本身（竞争优势）或交易数据（监管要求），审计人员核实后，皆大欢喜。
我们也在关注人工智能向设备端发展的趋势 - Gemma、苹果的 Foundation Models，以及整个本地推理浪潮，这些模型最终都需要与外部世界通信，zkML 可以让运行在你笔记本电脑上的模型向远程系统证明它确实进行了计算，而无需上传你的数据或模型权重。
zkML 有很多需要隐私保护的应用场景，并非所有代码库都提供隐私保护 - 开发者们请注意这一点！
可编程货币：为什么代理需要证明
在 2025 年，加密证明能够控制实际的货币，这比人们意识到的更为重要。
用于代理间支付的 X402 和 ERC-8004 等标准正在兴起，我们正迈向自主经济时代，在这样的时代里：
代理商从提供商处购买数据
对多个模型进行推理
为客户带来成果
完成支付结算 - 全程无需人工干预
每一步都需要证明，你使用了付费数据吗？你运行了你声称的模型吗？这个结果确实是由那次计算得出的吗？zkML 通过加密技术回答了这些问题。
当交易者处理的是真金白银 - 不是测试网代币 - 而是实际价值时，基于数学的安全机制就必不可少了，你需要证明，或者你需要信任，如果你要构建的是无需信任的系统，那么选择显而易见。
2025 年 - ZKML 仍然很昂贵，开销确实存在，但开销正在减少（100 万倍 → 10 万倍 → 1 万倍），其价值主张也越来越清晰。
zkPyTorch 于 2025 年 3 月发布，VGG-16 推理的证明时间瞬间缩短至 2.2 秒，Lagrange 的 DeepProve 在 8 月份解决了大规模 LLM 推理的问题，秋季，我们在 JOLT Atlas 代码库中也观察到了类似的加速，而且是在未使用 GPU 的情况下，对多种模型都进行了加速。
在 2025 年 - 我们早已告别了玩具阶段，现在，利用零知识证明（ZKP）技术，有些模型可以在几秒钟内得到验证，随着开发工具的不断完善，我们可以期待在 2026 年看到这项突破性的基础设施在更多项目中得到实际应用。
计算成本只需一次性支付 - 即可获得可验证性、隐私保护以及无需中介即可跨越信任边界协调代理的能力，在人工智能代理即将开始转移数十亿美元资金的世界里，这并非奢侈品，而是必不可少的基础设施。
领域概览：谁在建造什么
zkML 从 2022 年的“可能实现”发展到 2025 年的“实际发布”，以下是我们如何走到这一步以及谁在做什么。
早期阶段（2022-2023）：概念验证
Modulus Labs 率先发起了这项运动，斯坦福大学的 Daniel Shorr 及其团队发表了《智能的成本》- 这是首个真正意义上针对人工智能零知识证明系统的基准测试，他们的论点是：如果零知识汇总能够降低以太坊的计算成本，那么或许也能将人工智能引入链上。
剧透：这玩意儿贵得要死，光是验证智能合约里最小的部分，每笔交易就要 20 美元，但它成功了，他们开发了 RockyBot（链上 AI 格斗游戏）和 Leela vs the World 来验证这个概念，更重要的是，他们证明了在零知识条件下也能验证 GPT-2 和 Twitter 的推荐算法。
他们使用的底层技术是一种名为 GKR 的协议，Vitalik 最近做了一篇关于它的教程，所以我在这里不再赘述细节，如果你对 GKR 感兴趣，可以去看看那篇文章，GKR 的核心思想是允许你在中心层跳过加密承诺，并且机器学习操作在这种环境下“感觉”自然流畅。
事实证明，矩阵乘法和其他一些关键操作在使用专门的协议（例如 sumcheck 协议和查找参数）时效率更高，Thaler 多年前在他的著作《证明、论证与零知识》中对此核心原因进行了非常透彻的解释：
预览：MATMULT 的其他协议，另一种交互式 MATMULT 协议是通过将 GKR 协议（将在 4.6 节中介绍）应用于计算两个输入矩阵 A 和 B 的乘积 C 的电路 C 而获得的，该协议中的验证器运行时间为 O(n^2)，证明器运行时间为 O(S)，其中 S 是电路 C 中的门数。
本节所述的 MATMULT 协议的优势体现在两个方面，首先，它并不关心证明器如何找到正确答案，相比之下，GKR 协议要求证明器以规定的方式计算答案矩阵 C，即逐门地评估电路 C；其次，本节协议中的证明器只需找到正确答案，然后额外执行 O(n^2) 的工作来证明其正确性，假设不存在线性时间矩阵乘法算法，那么这 O(n^2) 项是一个低阶的加性开销。相比之下，GKR 协议至少会给证明器引入一个常数因子的开销，在实践中，这体现在证明器的运行速度比（无法验证的）MATMULT 算法慢很多倍，而证明器的运行速度仅慢不到百分之一。
Thaler 也是最早倡导将 sumcheck 协议作为 ZK 所有核心构建模块的人之一！（@SuccinctJT #tendsToBeRight）
Halo2 应用于 ZKML
大约在同一时期，Jason Morton 创立了 EZKL，他的方法与众不同 - 接受任何 ONNX 格式（神经网络的开放标准）的模型，将其转换为 Halo2 电路，然后生成证明，其杀手锏是：你无需成为密码学家，只需导出你的 PyTorch 模型，用 EZKL 读取，即可获得证明。
爆炸（2024-2025）：选择你的战士
* 如果您的项目应该被列入名单，或者 2025 年时相关信息有所变更，请告知我！
* 以下声明均来自项目方在其博客文章中的自我介绍，有时，这些说法可能有所夸大！😬😬
EZKL（2023 年至今）
ONNX → Halo2 电路
基准测试表明，它的速度比 RISC Zero 快 65 倍，比 Orion 快 3 倍
比 RISC Zero 节省 98% 的内存
缺点：目前仅支持部分 ONNX 运算符（他们正在添加更多运算符）
主要挑战：量化，从浮点运算到定点运算，精度会有所损失
可能保护隐私 ✅
Lagrange DeepProve（2024 年发布，2025 年初通过 GPT-2 验证）
这个到来很快，据称比 EZKL 快 54-158 倍
首先要证明 GPT-2 能够进行完整的推理 - 不仅仅是部分推理，而是全部推理
验证结果：MLP 速度提升 671 倍，CNN 速度提升 521 倍（验证时间缩短半秒）
使用 sumcheck 协议 + 查找参数（logup GKR）
正在开发 LLAMA 支持 - GPT-2 和 LLAMA 在架构上很相似，所以它们很接近
拥有去中心化的证明者网络（运行在 EigenLayer 上）
不太可能保护隐私 ❌
zkPyTorch（Polyhedra Network，2025 年 3 月）
这是现代变形的突破性进展
首先证明 Llama-3 - 每个代币 150 秒
VGG-16 耗时 2.2 秒
三层优化：预处理、ZK 友好量化、电路优化
利用 DAG 和跨核心并行执行
与 Expander 验证引擎集成
不太可能保护隐私 ❌
ZKTorch（Daniel Kang，2025 年 7 月）
“通用”编译器 - 处理任何任务
GPT-J（60 亿个参数）：在 64个 线程上运行耗时 20 分钟
GPT-2：10 分钟（之前超过 1 小时）
ResNet-50 证明文件：85KB（Mystique 生成的证明文件为 1.27GB）
采用证明累积法 - 将多个证明合并成一个简洁的证明
这是目前通用 zkML 的速度之王
学术目标而非产业
Jolt Atlas（NovaNet / ICME Labs，2025 年 8 月）
基于 a16z 的 JOLT zkVM，并针对 ONNX 进行了修改
zkVM 方法，但实际上速度非常快
关键洞察：机器学习工作负载喜欢使用查找表，而 JOLT 本身就支持查找表
没有商多项式，没有字节分解，没有大积 - 只有查找和求和检查
灵活的量化支持 - 不会生成完整的查找表，因此您不会被限制在特定的量化方案中
理论上可以扩展到浮点运算（大多数其他运算方式仍局限于定点运算）
非常适合需要同时满足身份验证和隐私保护需求的代理商使用场景
可通过折叠方案（HyperNova / BlindFold）支持真正的零知识计算 ✅
技术现实
量化困境：机器学习模型使用浮点运算，而零知识证明使用有限域运算（本质上是整数），你需要进行转换，这会损失精度，大多数零知识机器学习（ZKML）都会对模型进行量化，因此精度会略有下降，但另一方面，许多用于小型设备和生产环境的机器学习模型都是量化模型。
每个框架的处理方式都不同，有些框架使用更大的位宽（更精确，但速度较慢），有些框架使用查找表，有些框架则巧妙地运用定点表示，Jolt Atlas 之所以喜欢我们的方法，是因为我们不需要为许多机器学习运算符实例化查找表。
目前还没有人找到完美的解决方案，只能通过不断迭代，逐步增加应用场景，这也是我们对 ZKML 近期发展前景保持乐观的原因之一。
运算符覆盖范围：ONNX 拥有 120 多个运算符，大多数 zkML 框架可能只支持其中的 50 到 200 个，这意味着某些模型架构目前还无法正常工作，各个团队都在争分夺秒地添加更多运算符，但这并非易事。
您的生产模型使用了 zkML 框架不支持的操作符，这种情况比您想象的要常见。
ONNX 规范包含超过 120 个运算符，大多数 zkML 框架仅支持 50 个或更少，差距在于：
您为特定用例编写的自定义图层：否
特殊归一化方法（GroupNorm、LayerNorm 的变体）：或许
动态控制流（if 语句、循环）：通常不
注意力机制：预计在 2024-2025 年才会添加到主要框架中
近期创新（闪屏吸引、旋转嵌入）：可能不会
当你尝试导出模型时，就会发现这个问题，ONNX 转换成功，但框架导入失败，“不支持的运算符：[任何运算符]。”
现在，你正在重写模型，使其仅使用受支持的运算符，这并非无关紧要的小麻烦 - 这是你在开始训练之前就应该了解的架构限制，这也是我们喜欢 zkVM 方法的原因之一……因为每个运算符都更容易实现即插即用，而以预编译为中心的方法则更需要手动操作🫳🧶。
激活函数：谨慎选择，在传统的机器学习中，激活函数是免费的，ReLU、sigmoid、tanh、GELU - 选择任何有效的即可。
在 zkML 中，激活函数是开销很大的操作，会导致电路崩溃。
为什么激活函数计算成本很高？ZK 电路基于多项式运算 - 有限域上的加法和乘法，这些运算成本很低，因为它们可以直接映射到电路约束，但激活函数是非线性的，无法很好地分解为域运算。
ReLU 需要计算“如果 x > 0 则 x 否则 0” - 这种比较需要多个约束条件来表示，Sigmoid 需要 1/(1 + e^(-x)) 在有限域上进行幂运算，这非常繁琐，需要大量的乘法运算，而且通常需要查找表，Softmax 将幂运算、求和运算和除法运算组合在一起，作用于整个向量，将原本简单的运算变成了每个神经元需要数百甚至数千个约束条件的复杂电路。
便宜的：
线性（无需激活）：免费
规模加法：基本免费
中间的：
ReLU：需要比较，易于管理
阶跃函数：成本与 ReLU 类似
昂贵的：
Sigmoid 函数：电路中的指数运算很麻烦
Tanh：更糟
Softmax：指数运算 + 除法 + 归一化，真正的痛苦
GELU / SwiGLU：先别管它了（目前……我们还有一些工作要做）
现代 Transformer 倾向于使用 GELU 及其变体，而 zkML Transformer 则只能使用近似算法或更简单的替代方案。
这就是为什么框架要构建非线性查找表的原因，预先计算常用值，直接引用它们而不是重新计算，速度更快，但代价是内存占用增加，并且限制了量化选择。
应用案例：究竟什么才真正值得证明？
你刚刚读到了关于 10,000 倍开销、量化地狱和指数级成本曲线的内容，一个很合理的问题：为什么会有人让自己遭受这种痛苦？
答案并非“所有东西都应该用 zkML”，答案是：某些问题迫切需要可验证性，因此付出额外的代价是值得的。
基本过滤器
在深入探讨用例之前，先来做个测试：信任失败的成本是否高于证明的成本？
如果你运行的推荐算法是用来展示猫咪视频的，那么信任失败不会造成任何损失，直接展示猫咪视频就行了，没人会在意你的模型是不是你声称的那个。
如果你运行一个管理着 1000 万美元资产的交易机器人，信任危机将是灾难性的，机器人失控，仓位被强制平仓，你还得向投资者解释为什么你会信任一个不透明的 API。
zkML 在以下情况下适用：
高风险：金钱、健康、法律决定、安全
信任鸿沟：多方之间互不信任
隐私限制：敏感数据不能共享
可审计性要求：监管机构或利益相关者需要证据
对抗性环境：有人有作弊的动机
如果你的使用场景不符合以上至少两项，那么你可能暂时不需要 zkML。
DeFi：资金的聚集地
DeFi 是 zkML 的天然栖息地，它具备以下特点：高价值交易需要在区块链上进行无需信任的执行和简洁的验证，同时还要保持对用户的透明度，敌对势力会试图利用每一个漏洞！
价格预言机
第一个真正意义上的 zkML 产品是 Upshot + Modulus 的 zkPredictor，问题在于：NFT 的估值是由专有的机器学习模型计算出来的，如何才能信任这些价格信息呢？
传统预言机：“相信我们，这是我们模型给出的结果。” zkML 预言机：“这里有一个加密证明，证明这个价格来自这个模型，运行在这个特定的数据上（数据可能属于隐私数据）。”
这项证明意味着，您可以基于这些价格构建金融产品（贷款、衍生品），而无需信任 Upshot，他们无法在不破坏证明的情况下操纵价格，数据保持私密，但计算过程可验证。
这种模式具有普遍性：任何时候 DeFi 协议需要 ML 衍生数据（波动率估计、风险评分、收益率预测），zkML 都可以在不泄露模型的情况下证明计算结果。
交易机器人和代理
想象一下：你已经在多个 DeFi 协议上部署了一个收益优化代理，它在 Uniswap 上管理流动性头寸，在 Curve 上进行挖矿，在 Aave 上进行再平衡。
如何确定它正在正确执行你的策略？如何向有限合伙人证明他们的资金是按照你宣传的算法进行管理的？
使用 zkML，代理会为每个操作生成一个证明，“我将 50 个 ETH 从资金池 A 转移到资金池 B，因为我的模型预测收益更高，这是我使用您批准的策略的证明。”
Giza 正是基于 Starknet 构建了这一功能，他们的 LuminAIR 框架（使用 StarkWare 的 STWO 证明器）允许你为 DeFi 构建可验证的代理，一个能够重新平衡 Uniswap V3 头寸的代理可以证明每次重新平衡决策都源自承诺的模型，模型权重保密，交易策略保密，而证明过程公开。
这实现了智能体之间的交互，你的智能体可以与其他智能体进行无需信任的协作，因为双方都在生成可验证的计算结果，无需可信的中介机构，只有纯粹的数学运算。
风险模型与信用评分
银行使用机器学习进行信贷决策，DeFi 协议使用机器学习来设定抵押率，问题：如何证明你的风险模型得到了一致的应用？
传统系统：“相信银行。” zkML 系统：“每一项贷款决定都附带证明，证明该特定模型在这些固定参数下评估了该申请人的数据。”
这很重要，因为：
监管合规：证明你没有歧视
公平性审计：证明同一模型适用于所有人
争议解决：如果有人对某项决定提出质疑，您可以提供事件经过的加密证据
模型可以保持专有，数据可以保持私密，证据表明整个过程是公平的。
无需信任的代理
还记得开头吗？代理们像接力赛一样传递密码？
设想这样一个场景 - 一个智能体生态系统，其中：
手机上的代理 A 分析了你的日历，并决定你需要预订机票
代理 B（旅行预订服务）查找航班和价格
代理 C（支付处理商）执行交易
代理 D（费用跟踪）会将其记录下来，供贵公司会计使用
每一步都需要验证前一步，如果代理 A 的分析存在欺诈行为，代理 B 将不会执行操作，如果代理 B 的报价被篡改，代理 C 将不会付款，如果代理 C 的交易可疑，代理 D 将不会记录。
如果没有 zkML：要么每个代理都在可信区域运行，要么所有代理都互相信任，这两种方法都无法扩展。
使用 zkML：每个代理生成一个证明，代理 B 验证代理 A 的证明，代理 C 验证代理 B 的证明，整个流程无需信任，一个代理可以运行在 AWS 上，另一个运行在你的手机上，还有一个运行在以太坊上，这都无关紧要 - 数学原理将它们连接起来。
x402 和 ERC-8004 的未来
这些新兴标准定义了人工智能代理之间如何直接支付报酬，整个过程无需人工干预，但支付需要信任。
如果代理 A 声称“我做了这个分析，付钱给我”，代理 B 就需要证据，如果代理 B 管理资金而代理 A 撒谎，那就是盗窃，zkML 提供了证据层。
我们正迈向自主代理经济时代，代理之间互相雇佣完成子任务，代理通过加密技术证明其工作成果，支付基于已验证的完成情况自动进行，没有任何中心化机构控制整个工作流程。
NovaNet 的 Jolt Atlas 正是为此而设计的，它兼顾隐私和验证，该代理程序无需泄露输入、输出或中间状态即可证明其计算正确性，这对于所有信息都高度敏感的商业代理程序而言堪称完美之选。
医疗保健：隐私与可审计性
医疗保健行业正被机器学习淹没，却又对隐私泄露感到恐惧，HIPAA、GDPR、地区性法规 - 每个司法管辖区都有关于患者数据的规定。
诊断模型
一家医院运行着一套机器学习诊断模型，该模型已获得 FDA 批准，并经过全面验证，患者入院后，模型分析影像数据，并提出治疗建议。
监管机构问道：“你实际使用的是 FDA 批准的型号吗？还是使用了修改后的型号？你能证明吗？”
传统答案：“相信我们的日志。” zkML 答案：“这里有一个加密证明，证明这个模型（权重已确定）在该患者的数据上运行，并产生了此结果。”
患者数据绝不会离开医院，模型权重也严格保密（受知识产权保护），但相关证明会提供给监管机构、保险公司以及任何需要核实的机构。
缺乏数据共享的合作研究
多家医院都想利用各自的患者数据训练一个模型，但由于隐私法的限制，它们无法共享数据，同时，由于彼此竞争，它们之间也无法建立信任。
zkML 的优势在于：每家医院都能证明其本地训练是在有效数据上正确完成的，所有证明汇总后，每个人都能获得更优的模型，而且，任何人都看不到其他医院的数据。
游戏：可证明的公平性
游戏不需要 zkML 来显示猫咪图片，但如果是真金白银的竞技游戏呢？那就另当别论了。
AI 对手
你正在和电脑 AI 玩扑克，你怎么知道 AI 没有通过查看你的底牌作弊？你怎么知道你付费购买的真的是“困难”难度，而不是改了名字的“中等”难度？
zkML：游戏服务器会证明每个 AI 决策都来自已提交的模型，无法作弊，也无法替换为较弱的模型，证明是针对每局游戏生成的，并由客户端验证。
Modulus 开发了 RockyBot（一款 AI 格斗游戏）和 Leela vs the World（一款链上国际象棋游戏）作为概念验证，AI 的行为是可验证的，玩家可以确认他们面对的是真正的 AI。
公平匹配
排位赛匹配系统使用机器学习技术来配对玩家，如果算法不透明，阴谋论就会滋生：“他们故意给我匹配差劲的队友！”“他们在操纵比赛！”
zkML：证明匹配算法运行正确，证明每个玩家都由同一模型评分，这样一来，那些阴谋论就站不住脚了。
模型市场：机器学习即服务（MLaaS）验证
你付费购买的是 GPT-4 级别的 API 访问权限，你怎么知道你实际获得的是 GPT-4 而不是改了名称的 GPT-3.5 呢？
现在：相信供应商。
使用 zkML，每个 API 响应都会附带一个证明：“此输出来自具有 Y 参数的模型 X。”如果提供商尝试使用更便宜的模型，则证明会失效。
这使得竞争激烈的模型市场得以形成，因为供应商无法在模型层级上作弊！用户可以验证服务水平协议（SLA）的合规性，并且定价与已验证的计算能力挂钩（您只需为实际获得的计算能力付费）。
AI 记忆
ICME Labs 的一个核心用例是嵌入模型，这些模型可以在浏览器中运行，目前是 ZKML 的实际应用目标，试想一下，用户以英语浏览源代码，而消费者却用日语购买和查询 - 他们无法进行审核，因此需要加密信任。
或者租用一段记忆 - 相信我，兄弟，“我的 AI 记忆里有这个……”分类模型现在就可以用于解决这个信任问题，并创造一个新的 AI 记忆经济™️。
2025 年还缺少什么
让我们坦诚地面对目前还行不通的地方：
在 zkML 中实现 GPT-5 这样的大型语言模型？不可能：或许可以用 GPT-2 作为演示（zkPyTorch 已经证明了 Llama-3 的性能，但每个词元需要 150 秒），真正前沿的大型语言模型推理是可以实现的……但速度会很慢，而且会消耗大量内存。
实时系统：如果您需要 100 毫秒以下的推理速度并提供证明，那么您只能选择较小的模型或更直接的分类模型，自动驾驶汽车需要证明每个决策的正确性吗？目前的 zkML 还无法实现。
训练方面：我们可以证明推理能力，但无法证明大规模训练的能力，如果您需要验证模型是否使用特定数据和特定方法进行训练，ZKML 目前还无法满足需求。
复杂架构：注意力机制刚刚成为可能，专家混合模型？图神经网络？扩散模型？这些仍是研究领域。
2026 年 ZKML 的预测
以下是对 2026 年接下来 10 倍解锁内容的一些基本推测。
硬件浪潮
硅芯片解锁是公平的。
GPU 加速（已上线）：所有主流的 zkML 框架都已支持或正在添加 GPU 支持，EZKL、Lagrange、zkPyTorch、Jolt - 全部都基于 CUDA 运行，但 2025 年的 GPU 支持仅仅是“它能在 GPU 上运行”，而 2026 年将会是“它针对 GPU 进行了优化”。
区别至关重要，目前的实现方式是将 CPU 算法移植到 GPU 上，而下一代实现方式则会围绕 GPU 原语重新设计算法，大规模并行处理，通过 GPU 内存传输数据，内核融合用于生成证明。
预期影响：现有工作负载速度提升 5-10 倍，原本需要 30 秒的模型可能只需 3-5 秒即可完成，这就是“适用于批量处理”和“适用于交互式应用程序”之间的区别。
多机证明（协调层）
最新 zkML：一台性能强劲的机器即可生成您的证明。
2026 zkML：证明生成在集群上并行化，拆分电路，分发给多个证明器（多重折叠），聚合结果。
Lagrange 已经在着手研究这个问题了，Polyhedra 在他们的 zkPyTorch 路线图中也提到了这一点，相关技术已经存在（递归证明、证明聚合、延续），我们的基础设施层 NovaNet 专注于协作证明器（通过折叠方案）如何处理这项任务，工程方面则非常困难（工作分配、容错、成本优化）。
当这项技术投入使用时：将证明通过 10 台机器同时运行，GPT-2 的运算时间可以从 10 分钟缩短到 1 分钟，同时证明 Llama-3 将从“好奇”走向“真正可用”。
证明系统：更优的数学
硬件有所帮助，但更好的算法帮助更大。
域算术
目前大多数零知识证明（ZKML）方案都使用 BN254 或类似的大型域，一些团队正在探索 Mersenne-31 域以及其他更小的域，这些域的运算速度可能更快，据估计，仅域的切换就能带来 10 倍的性能提升，基于椭圆曲线的系统继续受益于稀疏性（例如 Twist 和 Shout）。
基于 Lattice 的零知识证明方案使我们能够利用这些更小的域，同时还能受益于稀疏性和同态性，Lattice 还支持按比特付费，并且可能具有后量子安全特性，最后一个亮点是 - 可以动态生成公共参数。
重要性：域运算是证明生成的最内层循环，域运算速度提升 10 倍意味着所有证明过程的速度都能提升 10 倍，原本需要 10 秒才能完成证明的模型，现在只需 1 秒即可完成。
Jolt Atlas 已经从中受益 - 以查找为中心的架构与稀疏性配合良好 - 一些机器学习操作具有很高的稀疏性。
证明累积 / 折叠方案
ZKTorch 采用了这种方法：不为每一层生成独立的证明，而是将多个证明合并到一个累加器中，最终的证明非常小，与模型深度无关。
这是新星 / 超新星 / 中子新星的领域 ⭐💥，递归 SNARKs，让你能够证明“我证明了 A，然后我证明了 B，然后我证明了 C”，而不会导致证明规模爆炸。
2026 年预测：这将成为标准，每个 zkML 框架都将添加折叠功能，ResNet-50 的证明文件大小将从 1.27GB（旧版 Mystique）缩小到小于 100KB（基于折叠的新系统），由于证明文件大小不再随序列长度扩展，GPT 类型的模型将变得可行。
Folding 也有助于解决证明器内存不足的问题，你可以在多种设备上运行 ZKML，并选择与机器规格相匹配的步长。
最后，折叠还可以用于将零知识（ZK）重新赋予那些不具备隐私保护功能的协议，HyperNova 的论文中有一个很棒的技巧，展示了如何做到这一点。
流媒体证明
当前限制：要证明一个生成 100 个令牌的 LLM，你需要先证明令牌 1，然后是令牌 2，再是令牌 3……每次证明都是独立的，这会导致内存占用急剧增加，你可以通过折叠或流式处理来控制内存增长。
目前还处于研究阶段，但将于 2026 年发布，届时：zkML 中的 LLM 推理将从“在大型机器上证明”变为“在任何地方证明”。
运算符覆盖范围爆炸式增长
请记住：ONNX 有 120 多个运算符，大多数框架只支持 50 个左右。
差距正在迅速缩小，这并非因为框架们正在逐个实现运算符，而是因为它们正在构建运算符编译器和通用的 zkVM 原语，以便大规模地处理大量运算符。
Transformer 基元
注意力机制在 2024 年几乎无法实现，到 2025 年底，多种框架都支持它们，到 2026 年，它们将得到优化。
专用电路：
缩放点积注意力
多头注意力
位置编码
层归一化（早期 zkML 中的 Transformer 杀手）
结合流式证明，这意味着：基于 Transformer 的模型在 zkML 中成为一等公民，这不仅是“我们可以缓慢地证明 GPT-2”，而且是“我们可以以合理的成本证明现代 Transformer 架构”。
这将解锁视觉转换器、音频模型、多模态模型，所有支撑现代机器学习的架构，现在都可验证了。
成本曲线变化导致用例演化
技术改进本身并不重要，重要的是它们能够带来什么。
DeFi 代理：从批处理到实时
2025 年：代理每小时对您的投资组合进行一次再平衡，每次再平衡都会在后台生成一份证明文件，在下一次交易执行时，之前的证明文件已经准备就绪。
2026 年：代理根据市场状况实时进行再平衡，证明生成时间为 1-5 秒，代理以连续循环的方式运行：观察市场 → 计算决策 → 生成证明 → 执行交易，证明在下一个区块确认之前即可获得。
这改变了游戏规则，您可以构建响应式代理，而不仅仅是定时代理，闪电崩溃保护，MEV 防御，具有加密保证的自动套利。
医疗保健：从审计日志到实时验证
2025 年：医院进行诊断，模型生成结果，医院随后向监管机构提交证明文件，证明文件生成只需几分钟，且离线完成。
2026 年：验证结果的生成速度足够快，可以在临床工作流程中完成，医生下达检测医嘱，模型运行，验证结果并行生成，当医生审核结果时，验证结果已随结果一同提交。
这实现了：实时审计合规性，即时验证的保险预授权，以及跨机构工作流程，其中每个步骤都经过验证后才能开始下一步。
无需信任的代理：从演示到生产
2025 年：代理工作流程可行，但较为繁琐，每次代理交互都需要生成证明，耗时数秒到数分钟，复杂的工作流程运行缓慢。
2026 年：对于简单模型，证明速度可达亚秒级，对于复杂模型，证明速度可并行化，智能体之间的交互将更加自然流畅，智能体 A 调用智能体 B，等待 0.5 秒进行证明验证，然后继续执行，虽然延迟令人烦恼，但比人工操作要好得多🤪。
这才是无需信任的代理网络真正能够扩展规模的时候，不是研究项目，而是生产系统，其中数百个代理相互协作，每个代理都通过加密方式证明自己的工作。
x402 / ERC-8004 的愿景成为现实：代理雇佣代理，用加密货币支付，所有这一切都通过证明进行调解。
游戏：从回合制到即时制
2025 年：zkML 在游戏中的应用将仅限于回合制场景，例如扑克机器人、国际象棋引擎以及可以容忍每步棋生成 1-5 秒证明的策略游戏。
2026 年：速度足以满足某些类型游戏的实时 AI 需求，例如，格斗游戏中 AI 对手的每一个决策都需要经过验证，以及 RTS 游戏中，战略决策（并非单位级别的寻路，而是高层次的战术）需要经过验证。
对于第一人称射击游戏或需要反应速度的游戏机制来说，速度仍然不够快，但可行的设计空间却大大扩展了。
模型市场：从利基市场到主流市场
2025 年：验证 API 响应很酷，但应用范围有限，只有高价值的应用才值得付出这种额外成本。
2026 年：成本大幅下降，对于任何每次调用收费超过 0.01 美元的 API 来说，验证将成为标准流程，模型提供商将根据可验证性进行差异化竞争，“未经验证的推理”将成为入门级服务。
这可以实现：通过密码学强制执行服务级别协议（SLA），为人工智能服务提供工作量证明，以及基于已验证计算历史的信誉系统。
可验证的人工智能记忆：创造共享价值
2025 年：我们已经在 2025 年使用 ZKML 来证明有关向量数据库的嵌入和分类的事情，该用例在 2026 年将实现超大规模扩展。
2026 年：无需信任的共享 AI 内存上线，您的 AI 助手不再拥有单一的内存 - 它将协调多个经过验证的内存，包括个人内存、公司内存和专业知识。
归根结底
制定循序渐进的计划，并偶尔进行革命性的飞跃 - 订阅即可了解这些飞跃！
ZKML 的盛宴已经拉开帷幕 - 我们已经证明了使用零知识证明（ZKP）验证机器学习是可行的，现在，我们进入了略显枯燥的阶段：工程师和研究人员正努力使其更快、更便宜、更可靠。
在一次活动中，我听到一位加密货币风险投资家说“今年的 ZK 很无聊”！
无聊是好事，无聊意味着它正在变得真实。
作者：Wyatt Benno（Kinic 创始人）
翻译：Catherine
#KINIC #zkml  #ICP生态  #AI 
你关心的 IC 内容
技术进展 | 项目信息 | 全球活动
收藏关注 IC 币安频道
掌握最新资讯
ZKML 权威指南（2025）

Explore More From Creator

Latest News