很多人最近都有一个微妙的体验:AI 模型明显变得更强大了,但实际用起来却越来越“别扭”。
你很可能也遇到过这样的情况:
和 AI 来回对话十几轮
一点点修代码、补条件
明明只是实现一个功能,却反复调整多次
最终 token 成本很高,结果却还不稳定
这看起来很不合理。模型能力在快速提升,为什么使用效率却没有同步提高?
Anthropic 最近发布的关于 Claude Code 配合 Opus 4.7 的使用建议,正好解释了这一现象。但如果只把它当作一份普通的使用指南,你就会错过其中最核心的价值。
因为这份建议背后揭示的,不是简单的使用技巧,而是一个根本性的转变:
AI 编程,正在从“对话生成”时代,进入“任务管理”时代。
这不是一份提示词优化指南,而是在重新定义人与 AI 的协作关系。
从“响应式助手”到“委派工程师”
过去两年,大多数人习惯把 AI 当成一种增强工具:
会写代码的搜索引擎
更聪明的 Stack Overflow
一个可以随时聊天的 Copilot
典型的使用方式是“多轮逼近”:抛出一个问题,看回答,补充条件,再修改一轮,逐步接近想要的结果。
这种方式在 ChatGPT 早期非常有效,因为那时的模型更像一个响应式助手——帮你补一段代码、解释一个报错、修改一个函数。
然而,以 Claude Code + Opus 4.7 为代表的新一代工具,正在改变模型擅长的任务结构。
Anthropic 给出的核心建议可以浓缩成一句话:
不要再把模型当成结对编程的搭子,而要把它当成你委派任务的工程师。
这句话的含义非常深刻:
交互单位从“单次回答”变成了“完整任务”
评估标准从“回答得对不对”变成了“任务是否成功交付”
用户的角色从“指导者”变成了“任务定义者 + 验收者”
这已经不再是提示词层面的优化,而是人机协作关系的重构。
为什么多轮对话正在变得低效?
很多人知道“少轮次更省 token”,但这只是表层原因。真正的根源在于模型的成本结构发生了变化。
在早期模型中,每一轮对话基本就是一次简单的生成,推理深度有限。
而在 Opus 4.7 这类先进模型中,每增加一轮对话,背后都可能包含:
任务理解的重建
上下文的重新对齐
约束条件的解析
解法规划
工具调用的决策
也就是说,每一轮不只是多说一句话,而是进行了一次全新的任务建模。
多轮交互的成本不再是线性增加,而是重复建模的叠加。这直接导致过去“先试试、再补一点、再改一下”的使用习惯,在新一代 agent 型模型上迅速变得成本高、速度慢、结果不稳定。
因此,Anthropic 反复强调第一轮就要:
把任务说清楚
提供完整上下文
明确所有约束条件
写清楚验收标准
因为最昂贵的,不是内容的生成,而是反复重建问题本身。
Prompt 的升级:从提问技巧到任务规格说明
前一阶段的核心能力是 Prompt Engineering(提示词工程)。而现在,正在发生一次重要的升级:
Prompt 正在演变为 Specification(任务规格说明)。
过去写 prompt,主要是在优化表达,让模型更好地理解问题。
现在写 prompt,则是在定义一个可以被可靠执行的任务,需要清晰包含:
目标是什么
边界在哪里
可以使用的资源
什么算作完成
这与软件工程中的 PRD、技术方案和验收标准极为相似。
带来的重要变化是:会写 prompt,不再只是语言能力,而是系统设计能力。
真正关键的不再是“你怎么问”,而是:
你能否把问题定义清楚
你能否拆解目标与约束
你能否提供恰到好处的上下文
你能否提前设计验收标准
因此,我们可以做出一个更强的判断:
AI 编程的下一阶段,不是 Prompt Engineering,而是 Specification Engineering。
自适应思考:模型开始自主管理推理资源
Opus 4.7 取消了固定的思考预算,改为自适应思考(Adaptive Thinking)。
这一变化看似是技术细节,却意义重大:模型开始从“被人类分配推理资源”,转向“自己管理推理资源”。
过去是人类决定某个问题要思考多久,现在是模型自主判断:
是否需要深度推理
推理应该进行到什么程度
是否值得投入更多计算
这意味着模型能力的重点发生了转移:不再只是“能不能推理”,而是“会不会聪明地判断何时推理、如何控制深度,并在速度、成本和正确率之间做出权衡”。
人类的控制方式也随之升级,从参数控制(预算、步数)转向策略控制(意图、偏好),例如:
“这个问题比较复杂,请逐步推理”
“优先快速回复,不需要深入分析”
人机接口正在从底层参数走向高层策略。
为什么模型突然变得“保守”?
许多用户观察到:工具调用变少了、子代理更谨慎了、回答也更短了。
这并非能力退步,而是 Anthropic 在产品哲学上的主动取舍——不是让模型尽可能多做,而是让它在可控成本下把事情做对。
背后的目标有三个:
降低无效执行(激进的 agent 容易忙碌却没有实际产出)
提高行为的可预测性(企业用户更需要稳定可靠,而非偶尔的高光表现)
把探索强度交还给用户(默认保守,但允许用户明确授权更激进的行为)
这本质上是在重新划分责任边界:系统负责安全与成本,用户负责任务强度与探索范围。
整个行业都在转向“任务管理”
虽然 Claude Code 是 Anthropic 的产品,但这一方向其实是整个 AI 行业的共同趋势。
不同公司路径不同,但底层竞争的都是同一件事:谁能成为模型与真实工作之间的有效调度层。
Anthropic 通过 Claude Code 定义“AI 工程师”
OpenAI 强化工具调用与通用 agent 能力
Google 将 Gemini 深度嵌入 Workspace 全家桶
Cursor 把 AI 彻底融入开发者 IDE
Devin 尝试端到端自动完成软件任务
表面上是产品形态的差异,实质上竞争的是任务接收、上下文理解、步骤规划、工具调用和结果验证等全链路能力。
模型是发动机,而工具层和工作流才是真正的传动系统。 未来的胜负,很可能取决于这套传动系统的优劣。
Anthropic 与 Google:Agent vs 环境
把视野拉大,不同公司其实在押注不同的未来:
Anthropic 在定义 Agent:提升单个智能体的任务执行能力,让用户放心地把任务交给 AI。
Google 在定义 环境:不做一个孤立的 agent,而是把 AI 嵌入用户已有的每一个工作节点(Gmail、Docs、Sheets、Drive 等)。
一句话概括:
Anthropic 让你把任务交给 AI,Google 让 AI 出现在你工作的每一个步骤中。
真正重要的是人机分工模型
很多讨论都停留在“谁更聪明、谁上下文更长、谁更快”,但更本质的差异在于每个产品默认的人机分工模式:
Claude Code:人定义任务,AI 执行并交付
ChatGPT:人和 AI 共同探索问题
Cursor:人主导开发,AI 提供加速
Gemini:人不改变原有流程,AI 嵌入流程
Devin:AI 尽可能替代整条流程
真正的区别不是模型能力高低,而是人类参与工作的层级被重新定义了。
工程师的价值正在上移
当 AI 能够承担越来越多“实现层”的工作时,工程师的价值正在从底层执行向上迁移:
从
写代码、调接口、Debug
转向
定义问题、拆解系统、设计约束、控制风险、制定验收标准
这是一次典型的分工上移。
大模型并没有消灭软件工程,而是在重排工程中的高价值环节。
结语:这是一场软件生产方式的升级
Claude Code + Opus 4.7 的真正意义,不在于它能更快地写代码或更聪明地回答问题,而在于它正在推动一场更深层的变革:
软件生产,正在从“人写代码,AI 辅助”,走向“人定义系统,AI 执行实现”。
当这一趋势确立,许多事物都会随之改变:
Prompt 将演变为 Specification
对话将转变为任务委派
工具将升级为工作流
工程师将转变为 Orchestrator(系统编排者)
这份指南真正想传递的,不是“如何更高效地使用 Claude”,而是:
未来的软件,不是被写出来的,而是被定义出来的。

