很多人最近都有一個微妙的體驗:AI 模型明顯變得更強大了,但實際用起來卻越來越“彆扭”。

你很可能也遇到過這樣的情況:

  • 和 AI 來回對話十幾輪

  • 一點點修代碼、補條件

  • 明明只是實現一個功能,卻反覆調整多次

  • 最終 token 成本很高,結果卻還不穩定

這看起來很不合理。模型能力在快速提升,爲什麼使用效率卻沒有同步提高?

Anthropic 最近發佈的關於 Claude Code 配合 Opus 4.7 的使用建議,正好解釋了這一現象。但如果只把它當作一份普通的使用指南,你就會錯過其中最核心的價值。

因爲這份建議背後揭示的,不是簡單的使用技巧,而是一個根本性的轉變:

AI 編程,正在從“對話生成”時代,進入“任務管理”時代。

這不是一份提示詞優化指南,而是在重新定義人與 AI 的協作關係。

從“響應式助手”到“委派工程師”

過去兩年,大多數人習慣把 AI 當成一種增強工具:

  • 會寫代碼的搜索引擎

  • 更聰明的 Stack Overflow

  • 一個可以隨時聊天的 Copilot

典型的使用方式是“多輪逼近”:拋出一個問題,看回答,補充條件,再修改一輪,逐步接近想要的結果。

這種方式在 ChatGPT 早期非常有效,因爲那時的模型更像一個響應式助手——幫你補一段代碼、解釋一個報錯、修改一個函數。

然而,以 Claude Code + Opus 4.7 爲代表的新一代工具,正在改變模型擅長的任務結構。

Anthropic 給出的核心建議可以濃縮成一句話:

不要再把模型當成結對編程的搭子,而要把它當成你委派任務的工程師。

這句話的含義非常深刻:

  • 交互單位從“單次回答”變成了“完整任務”

  • 評估標準從“回答得對不對”變成了“任務是否成功交付”

  • 用戶的角色從“指導者”變成了“任務定義者 + 驗收者”

這已經不再是提示詞層面的優化,而是人機協作關係的重構。

爲什麼多輪對話正在變得低效?

很多人知道“少輪次更省 token”,但這只是表層原因。真正的根源在於模型的成本結構發生了變化。

在早期模型中,每一輪對話基本就是一次簡單的生成,推理深度有限。

而在 Opus 4.7 這類先進模型中,每增加一輪對話,背後都可能包含:

  • 任務理解的重建

  • 上下文的重新對齊

  • 約束條件的解析

  • 解法規劃

  • 工具調用的決策

也就是說,每一輪不只是多說一句話,而是進行了一次全新的任務建模。

多輪交互的成本不再是線性增加,而是重複建模的疊加。這直接導致過去“先試試、再補一點、再改一下”的使用習慣,在新一代 agent 型模型上迅速變得成本高、速度慢、結果不穩定。

因此,Anthropic 反覆強調第一輪就要:

  • 把任務說清楚

  • 提供完整上下文

  • 明確所有約束條件

  • 寫清楚驗收標準

因爲最昂貴的,不是內容的生成,而是反覆重建問題本身。

Prompt 的升級:從提問技巧到任務規格說明

前一階段的核心能力是 Prompt Engineering(提示詞工程)。而現在,正在發生一次重要的升級:

Prompt 正在演變爲 Specification(任務規格說明)。

過去寫 prompt,主要是在優化表達,讓模型更好地理解問題。

現在寫 prompt,則是在定義一個可以被可靠執行的任務,需要清晰包含:

  • 目標是什麼

  • 邊界在哪裏

  • 可以使用的資源

  • 什麼算作完成

這與軟件工程中的 PRD、技術方案和驗收標準極爲相似。

帶來的重要變化是:會寫 prompt,不再只是語言能力,而是系統設計能力。

真正關鍵的不再是“你怎麼問”,而是:

  • 你能否把問題定義清楚

  • 你能否拆解目標與約束

  • 你能否提供恰到好處的上下文

  • 你能否提前設計驗收標準

因此,我們可以做出一個更強的判斷:

AI 編程的下一階段,不是 Prompt Engineering,而是 Specification Engineering。

自適應思考:模型開始自主管理推理資源

Opus 4.7 取消了固定的思考預算,改爲自適應思考(Adaptive Thinking)。

這一變化看似是技術細節,卻意義重大:模型開始從“被人類分配推理資源”,轉向“自己管理推理資源”。

過去是人類決定某個問題要思考多久,現在是模型自主判斷:

  • 是否需要深度推理

  • 推理應該進行到什麼程度

  • 是否值得投入更多計算

這意味着模型能力的重點發生了轉移:不再只是“能不能推理”,而是“會不會聰明地判斷何時推理、如何控制深度,並在速度、成本和正確率之間做出權衡”。

人類的控制方式也隨之升級,從參數控制(預算、步數)轉向策略控制(意圖、偏好),例如:

  • “這個問題比較複雜,請逐步推理”

  • “優先快速回復,不需要深入分析”

人機接口正在從底層參數走向高層策略。

爲什麼模型突然變得“保守”?

許多用戶觀察到:工具調用變少了、子代理更謹慎了、回答也更短了。

這並非能力退步,而是 Anthropic 在產品哲學上的主動取捨——不是讓模型儘可能多做,而是讓它在可控成本下把事情做對。

背後的目標有三個:

  1. 降低無效執行(激進的 agent 容易忙碌卻沒有實際產出)

  2. 提高行爲的可預測性(企業用戶更需要穩定可靠,而非偶爾的高光表現)

  3. 把探索強度交還給用戶(默認保守,但允許用戶明確授權更激進的行爲)

這本質上是在重新劃分責任邊界:系統負責安全與成本,用戶負責任務強度與探索範圍。

整個行業都在轉向“任務管理”

雖然 Claude Code 是 Anthropic 的產品,但這一方向其實是整個 AI 行業的共同趨勢。

不同公司路徑不同,但底層競爭的都是同一件事:誰能成爲模型與真實工作之間的有效調度層。

  • Anthropic 通過 Claude Code 定義“AI 工程師”

  • OpenAI 強化工具調用與通用 agent 能力

  • Google 將 Gemini 深度嵌入 Workspace 全家桶

  • Cursor 把 AI 徹底融入開發者 IDE

  • Devin 嘗試端到端自動完成軟件任務

表面上是產品形態的差異,實質上競爭的是任務接收、上下文理解、步驟規劃、工具調用和結果驗證等全鏈路能力。

模型是發動機,而工具層和工作流纔是真正的傳動系統。 未來的勝負,很可能取決於這套傳動系統的優劣。

Anthropic 與 Google:Agent vs 環境

把視野拉大,不同公司其實在押注不同的未來:

Anthropic 在定義 Agent:提升單個智能體的任務執行能力,讓用戶放心地把任務交給 AI。

Google 在定義 環境:不做一個孤立的 agent,而是把 AI 嵌入用戶已有的每一個工作節點(Gmail、Docs、Sheets、Drive 等)。

一句話概括:

Anthropic 讓你把任務交給 AI,Google 讓 AI 出現在你工作的每一個步驟中。

真正重要的是人機分工模型

很多討論都停留在“誰更聰明、誰上下文更長、誰更快”,但更本質的差異在於每個產品默認的人機分工模式:

  • Claude Code:人定義任務,AI 執行並交付

  • ChatGPT:人和 AI 共同探索問題

  • Cursor:人主導開發,AI 提供加速

  • Gemini:人不改變原有流程,AI 嵌入流程

  • Devin:AI 儘可能替代整條流程

真正的區別不是模型能力高低,而是人類參與工作的層級被重新定義了。

工程師的價值正在上移

當 AI 能夠承擔越來越多“實現層”的工作時,工程師的價值正在從底層執行向上遷移:

寫代碼、調接口、Debug

轉向

定義問題、拆解系統、設計約束、控制風險、制定驗收標準

這是一次典型的分工上移。

大模型並沒有消滅軟件工程,而是在重排工程中的高價值環節。

結語:這是一場軟件生產方式的升級

Claude Code + Opus 4.7 的真正意義,不在於它能更快地寫代碼或更聰明地回答問題,而在於它正在推動一場更深層的變革:

軟件生產,正在從“人寫代碼,AI 輔助”,走向“人定義系統,AI 執行實現”。

當這一趨勢確立,許多事物都會隨之改變:

  • Prompt 將演變爲 Specification

  • 對話將轉變爲任務委派

  • 工具將升級爲工作流

  • 工程師將轉變爲 Orchestrator(系統編排者)

這份指南真正想傳遞的,不是“如何更高效地使用 Claude”,而是:

未來的軟件,不是被寫出來的,而是被定義出來的。