很多人最近都有一个微妙的体验:AI 模型明显变得更强大了,但实际用起来却越来越“别扭”。

你很可能也遇到过这样的情况:

  • 和 AI 来回对话十几轮

  • 一点点修代码、补条件

  • 明明只是实现一个功能,却反复调整多次

  • 最终 token 成本很高,结果却还不稳定

这看起来很不合理。模型能力在快速提升,为什么使用效率却没有同步提高?

Anthropic 最近发布的关于 Claude Code 配合 Opus 4.7 的使用建议,正好解释了这一现象。但如果只把它当作一份普通的使用指南,你就会错过其中最核心的价值。

因为这份建议背后揭示的,不是简单的使用技巧,而是一个根本性的转变:

AI 编程,正在从“对话生成”时代,进入“任务管理”时代。

这不是一份提示词优化指南,而是在重新定义人与 AI 的协作关系

从“响应式助手”到“委派工程师”

过去两年,大多数人习惯把 AI 当成一种增强工具:

  • 会写代码的搜索引擎

  • 更聪明的 Stack Overflow

  • 一个可以随时聊天的 Copilot

典型的使用方式是“多轮逼近”:抛出一个问题,看回答,补充条件,再修改一轮,逐步接近想要的结果。

这种方式在 ChatGPT 早期非常有效,因为那时的模型更像一个响应式助手——帮你补一段代码、解释一个报错、修改一个函数。

然而,以 Claude Code + Opus 4.7 为代表的新一代工具,正在改变模型擅长的任务结构。

Anthropic 给出的核心建议可以浓缩成一句话:

不要再把模型当成结对编程的搭子,而要把它当成你委派任务的工程师。

这句话的含义非常深刻:

  • 交互单位从“单次回答”变成了“完整任务”

  • 评估标准从“回答得对不对”变成了“任务是否成功交付”

  • 用户的角色从“指导者”变成了“任务定义者 + 验收者”

这已经不再是提示词层面的优化,而是人机协作关系的重构

为什么多轮对话正在变得低效?

很多人知道“少轮次更省 token”,但这只是表层原因。真正的根源在于模型的成本结构发生了变化

在早期模型中,每一轮对话基本就是一次简单的生成,推理深度有限。

而在 Opus 4.7 这类先进模型中,每增加一轮对话,背后都可能包含:

  • 任务理解的重建

  • 上下文的重新对齐

  • 约束条件的解析

  • 解法规划

  • 工具调用的决策

也就是说,每一轮不只是多说一句话,而是进行了一次全新的任务建模

多轮交互的成本不再是线性增加,而是重复建模的叠加。这直接导致过去“先试试、再补一点、再改一下”的使用习惯,在新一代 agent 型模型上迅速变得成本高、速度慢、结果不稳定。

因此,Anthropic 反复强调第一轮就要:

  • 把任务说清楚

  • 提供完整上下文

  • 明确所有约束条件

  • 写清楚验收标准

因为最昂贵的,不是内容的生成,而是反复重建问题本身

Prompt 的升级:从提问技巧到任务规格说明

前一阶段的核心能力是 Prompt Engineering(提示词工程)。而现在,正在发生一次重要的升级:

Prompt 正在演变为 Specification(任务规格说明)。

过去写 prompt,主要是在优化表达,让模型更好地理解问题。

现在写 prompt,则是在定义一个可以被可靠执行的任务,需要清晰包含:

  • 目标是什么

  • 边界在哪里

  • 可以使用的资源

  • 什么算作完成

这与软件工程中的 PRD、技术方案和验收标准极为相似。

带来的重要变化是:会写 prompt,不再只是语言能力,而是系统设计能力。

真正关键的不再是“你怎么问”,而是:

  • 你能否把问题定义清楚

  • 你能否拆解目标与约束

  • 你能否提供恰到好处的上下文

  • 你能否提前设计验收标准

因此,我们可以做出一个更强的判断:

AI 编程的下一阶段,不是 Prompt Engineering,而是 Specification Engineering。

自适应思考:模型开始自主管理推理资源

Opus 4.7 取消了固定的思考预算,改为自适应思考(Adaptive Thinking)

这一变化看似是技术细节,却意义重大:模型开始从“被人类分配推理资源”,转向“自己管理推理资源”。

过去是人类决定某个问题要思考多久,现在是模型自主判断:

  • 是否需要深度推理

  • 推理应该进行到什么程度

  • 是否值得投入更多计算

这意味着模型能力的重点发生了转移:不再只是“能不能推理”,而是“会不会聪明地判断何时推理、如何控制深度,并在速度、成本和正确率之间做出权衡”。

人类的控制方式也随之升级,从参数控制(预算、步数)转向策略控制(意图、偏好),例如:

  • “这个问题比较复杂,请逐步推理”

  • “优先快速回复,不需要深入分析”

人机接口正在从底层参数走向高层策略。

为什么模型突然变得“保守”?

许多用户观察到:工具调用变少了、子代理更谨慎了、回答也更短了。

这并非能力退步,而是 Anthropic 在产品哲学上的主动取舍——不是让模型尽可能多做,而是让它在可控成本下把事情做对

背后的目标有三个:

  1. 降低无效执行(激进的 agent 容易忙碌却没有实际产出)

  2. 提高行为的可预测性(企业用户更需要稳定可靠,而非偶尔的高光表现)

  3. 把探索强度交还给用户(默认保守,但允许用户明确授权更激进的行为)

这本质上是在重新划分责任边界:系统负责安全与成本,用户负责任务强度与探索范围。

整个行业都在转向“任务管理”

虽然 Claude Code 是 Anthropic 的产品,但这一方向其实是整个 AI 行业的共同趋势。

不同公司路径不同,但底层竞争的都是同一件事:谁能成为模型与真实工作之间的有效调度层

  • Anthropic 通过 Claude Code 定义“AI 工程师”

  • OpenAI 强化工具调用与通用 agent 能力

  • Google 将 Gemini 深度嵌入 Workspace 全家桶

  • Cursor 把 AI 彻底融入开发者 IDE

  • Devin 尝试端到端自动完成软件任务

表面上是产品形态的差异,实质上竞争的是任务接收、上下文理解、步骤规划、工具调用和结果验证等全链路能力。

模型是发动机,而工具层和工作流才是真正的传动系统。 未来的胜负,很可能取决于这套传动系统的优劣。

Anthropic 与 Google:Agent vs 环境

把视野拉大,不同公司其实在押注不同的未来:

Anthropic 在定义 Agent:提升单个智能体的任务执行能力,让用户放心地把任务交给 AI。

Google 在定义 环境:不做一个孤立的 agent,而是把 AI 嵌入用户已有的每一个工作节点(Gmail、Docs、Sheets、Drive 等)。

一句话概括:

Anthropic 让你把任务交给 AI,Google 让 AI 出现在你工作的每一个步骤中。

真正重要的是人机分工模型

很多讨论都停留在“谁更聪明、谁上下文更长、谁更快”,但更本质的差异在于每个产品默认的人机分工模式

  • Claude Code:人定义任务,AI 执行并交付

  • ChatGPT:人和 AI 共同探索问题

  • Cursor:人主导开发,AI 提供加速

  • Gemini:人不改变原有流程,AI 嵌入流程

  • Devin:AI 尽可能替代整条流程

真正的区别不是模型能力高低,而是人类参与工作的层级被重新定义了

工程师的价值正在上移

当 AI 能够承担越来越多“实现层”的工作时,工程师的价值正在从底层执行向上迁移:

写代码、调接口、Debug

转向

定义问题、拆解系统、设计约束、控制风险、制定验收标准

这是一次典型的分工上移。

大模型并没有消灭软件工程,而是在重排工程中的高价值环节

结语:这是一场软件生产方式的升级

Claude Code + Opus 4.7 的真正意义,不在于它能更快地写代码或更聪明地回答问题,而在于它正在推动一场更深层的变革:

软件生产,正在从“人写代码,AI 辅助”,走向“人定义系统,AI 执行实现”。

当这一趋势确立,许多事物都会随之改变:

  • Prompt 将演变为 Specification

  • 对话将转变为任务委派

  • 工具将升级为工作流

  • 工程师将转变为 Orchestrator(系统编排者)

这份指南真正想传递的,不是“如何更高效地使用 Claude”,而是:

未来的软件,不是被写出来的,而是被定义出来的。