最近 AI 圈最热的话题,大概就是 Claude Fable 5。

有人说它是目前最强的商用模型,也有人盯着 50 美元 / M Output Token 的价格直摇头,觉得 Anthropic 已经把模型卖成了奢侈品。网上关于它的评测已经很多了,跑分、排行榜、参数分析几乎都能找到,但真正让我感兴趣的反而不是这些。

我更想知道,把它放进真实开发流程里,它到底值不值这个价格。

原本我打算直接用官方 API 测一轮,后来发现一个更现实的问题:现在开发已经不是只测一个模型了。Claude、GPT、Gemini、DeepSeek,每个模型都有自己的优势,如果每换一个模型就重新申请 API、配置环境、管理 Key,不仅麻烦,测试结果也很难放到同一个标准下比较。

后来我干脆把整个测试放到了 ZenMux 上完成。同一个 Prompt,同时跑多个模型,顺便把 Token 消耗、响应速度和费用一起记录下来。原本只是为了省点时间,结果几天下来,我反而发现真正改变我工作流的,不是 Claude,而是这种多模型协同的开发方式。

👉好的模型开始有了自己的分工

过去一年,大家讨论最多的问题一直是:"哪个模型最好?"

但真正开始做复杂项目之后,我发现这个问题越来越没有意义。

就像不会有人拿 Photoshop 去写代码,也不会用 IDE 去剪视频一样,不同模型也开始有了越来越明确的定位。

我这次选的是一个维护了两年多的 SaaS 项目,涉及四十多个文件,包括权限模块、缓存系统、日志链路、接口兼容和不少历史遗留逻辑。同样的需求,我分别交给 Claude Fable 5、Claude Opus 4.8、GPT-5.5 和 Gemini,整个过程没有针对任何模型做特殊优化。

第一轮跑下来,几个模型的特点就已经非常明显。

GPT-5.5 依旧保持了很高的效率,回答速度快,整体方案也完整,适合快速梳理思路;Gemini 在部分长文档理解和多模态相关任务表现不错;Opus 4.8 整体比较均衡,没有特别明显的短板。

而 Claude Fable 5,更像一个经验丰富的架构师。

它不会急着开始生成代码,而是先确认需求有没有遗漏、项目背景是否完整、哪些前提还需要补充。如果关键信息缺失,它甚至会暂停继续输出,而不是像很多模型一样,一边假设、一边继续往下写。

刚开始我还觉得它有点"慢",后来才意识到,它其实是在提前做以前需要工程师自己完成的工作。

👉Fable 5 强的,不只是代码,而是判断什么时候不能继续

让我印象最深的一次测试,是故意准备了一份带冲突的需求文档。

例如要求所有接口统一走一个 Client,同时登录接口又不能经过这个 Client;异常处理要统一,但又不能影响登录流程。这类需求现实项目里其实很常见,不少问题最后都是因为需求没有提前厘清,而不是代码写错。

几个模型都给出了自己的答案。

GPT-5.5 默认把部分冲突"圆"了过去,看起来方案很完整;Opus 4.8 能发现部分问题,但还是继续完成设计;Fable 5 则直接指出,这几个需求本身无法同时满足,并把冲突关系逐层拆解,最后重新整理出一套真正可以落地的方案。

这让我想到一个以前很少有人讨论的问题。

很多人一直觉得 AI 最大的问题是幻觉,但真正放到工程开发里,"假完成"可能比幻觉更危险。

答案看起来很漂亮,逻辑也很完整,可一旦建立在错误前提上,最后返工的成本往往比重写一次还高。

Fable 5 最大的价值,不一定是它知道得更多,而是它越来越愿意承认自己不知道。

对于工程开发来说,这一点反而更重要。

👉长任务开始成为模型之间真正的分水岭

后来我又连续跑了一组 Agent Workflow,从需求分析、接口设计,到测试用例、Code Review 和交付文档,一共二十多个步骤。

短任务阶段,几个模型差距其实没有网上说得那么夸张。

真正拉开距离的是长任务。

随着上下文越来越长,GPT-5.5 偶尔会重复前面的内容,部分约束也开始遗漏;Opus 4.8 相对稳定,但还是会出现少量上下文漂移。

Fable 5 则一直在引用之前的内容,不断验证当前步骤是否偏离目标,有时候甚至主动推翻前面已经给出的方案。

官方一直强调它适合复杂工程和 Agent 工作流,跑完整轮测试之后,我基本认可这一点。

不过,它的短板同样明显。

首先就是贵。

复杂任务不仅单价高,Token 消耗也明显高于其他模型;其次是速度,首 Token 延迟确实偏高。如果只是写几个函数、改文案、做 CRUD,这种场景用 Fable 5 并不划算。

所以,我现在越来越不认同"哪个模型最强"这种说法。

真正重要的是,什么时候该用哪个模型。

👉真正影响效率的,已经不是模型,而是模型管理

这也是为什么,这轮测试结束之后,我最大的收获其实不是 Claude Fable 5,而是 ZenMux 。

以前总觉得,一个平台就是把不同模型放在一起调用。

真正开始高频使用之后才发现,它解决的问题远不止这些。

例如最常用的 PK 模式,同一个 Prompt 可以直接同时运行多个模型,对比输出结果、Token 消耗、响应时间和费用,不用来回切换平台,也不用自己整理数据。对于做模型横评、Prompt 调优或者方案比对来说,这种效率提升非常明显。

另外,ZenMux 已经接入了包括 Claude Fable 5 在内的 200 多个主流模型。无论是 Claude、GPT、Gemini,还是其他新模型,都可以直接切换调用,不需要每个平台单独配置 API,也不用维护一堆 Key。对于国内开发者来说,不少官方接口存在网络、支付、RPM 限制等问题,而这些在 ZenMux 上基本都已经做好了统一处理,调用体验顺畅得多。

更重要的是,它让我第一次真正建立了"多模型协同"的工作方式。

需求分析可以交给 GPT,复杂重构交给 Claude Fable 5,代码审查再换另一个模型验证,同一个任务甚至可以同时参考多个模型的输出,而不是执着于寻找一个所谓"万能模型"。

这种变化看起来只是多点几下按钮,但长期下来,对开发效率的影响远比单纯换一个更强的模型大得多。

👉写在最后

如果今天还有人问我,Claude Fable 5 值不值得用,我的答案是:值得,但不是所有任务都值得。

它更适合那些真正复杂、需要长上下文、需要反复验证和推理的工程任务,而不是替代所有模型。

Claude Fable 5 让我看到了模型能力的边界,而 ZenMux 则让我真正体验到了多模型协同开发的效率。

相比又多了一个新模型,我更愿意把后者看作未来 AI 开发真正值得投入的一件事。

最后的最后, ZenMux 正在进行 Auto Top-up 自动充值限时活动

  • 活动期间:自动充值每笔加赠 20%

  • 单用户上限 3 次,单次加赠上限 $100 (也就是说,最多可享 $300 赠送余额)

  • 活动亮点:不限模型。充值后即可调用全平台 200+ 模型,包括 Claude Fable 5,随心使用,适合评测、对比、开发全场景。 本次活动截止到 0715,每位用户限享一次,先到先得!