很多人最近都有一個微妙的體驗:AI 模型明顯變得更強大了,但實際用起來卻越來越“彆扭”。
你很可能也遇到過這樣的情況:
和 AI 來回對話十幾輪
一點點修代碼、補條件
明明只是實現一個功能,卻反覆調整多次
最終 token 成本很高,結果卻還不穩定
這看起來很不合理。模型能力在快速提升,爲什麼使用效率卻沒有同步提高?
Anthropic 最近發佈的關於 Claude Code 配合 Opus 4.7 的使用建議,正好解釋了這一現象。但如果只把它當作一份普通的使用指南,你就會錯過其中最核心的價值。
因爲這份建議背後揭示的,不是簡單的使用技巧,而是一個根本性的轉變:
AI 編程,正在從“對話生成”時代,進入“任務管理”時代。
這不是一份提示詞優化指南,而是在重新定義人與 AI 的協作關係。
從“響應式助手”到“委派工程師”
過去兩年,大多數人習慣把 AI 當成一種增強工具:
會寫代碼的搜索引擎
更聰明的 Stack Overflow
一個可以隨時聊天的 Copilot
典型的使用方式是“多輪逼近”:拋出一個問題,看回答,補充條件,再修改一輪,逐步接近想要的結果。
這種方式在 ChatGPT 早期非常有效,因爲那時的模型更像一個響應式助手——幫你補一段代碼、解釋一個報錯、修改一個函數。
然而,以 Claude Code + Opus 4.7 爲代表的新一代工具,正在改變模型擅長的任務結構。
Anthropic 給出的核心建議可以濃縮成一句話:
不要再把模型當成結對編程的搭子,而要把它當成你委派任務的工程師。
這句話的含義非常深刻:
交互單位從“單次回答”變成了“完整任務”
評估標準從“回答得對不對”變成了“任務是否成功交付”
用戶的角色從“指導者”變成了“任務定義者 + 驗收者”
這已經不再是提示詞層面的優化,而是人機協作關係的重構。
爲什麼多輪對話正在變得低效?
很多人知道“少輪次更省 token”,但這只是表層原因。真正的根源在於模型的成本結構發生了變化。
在早期模型中,每一輪對話基本就是一次簡單的生成,推理深度有限。
而在 Opus 4.7 這類先進模型中,每增加一輪對話,背後都可能包含:
任務理解的重建
上下文的重新對齊
約束條件的解析
解法規劃
工具調用的決策
也就是說,每一輪不只是多說一句話,而是進行了一次全新的任務建模。
多輪交互的成本不再是線性增加,而是重複建模的疊加。這直接導致過去“先試試、再補一點、再改一下”的使用習慣,在新一代 agent 型模型上迅速變得成本高、速度慢、結果不穩定。
因此,Anthropic 反覆強調第一輪就要:
把任務說清楚
提供完整上下文
明確所有約束條件
寫清楚驗收標準
因爲最昂貴的,不是內容的生成,而是反覆重建問題本身。
Prompt 的升級:從提問技巧到任務規格說明
前一階段的核心能力是 Prompt Engineering(提示詞工程)。而現在,正在發生一次重要的升級:
Prompt 正在演變爲 Specification(任務規格說明)。
過去寫 prompt,主要是在優化表達,讓模型更好地理解問題。
現在寫 prompt,則是在定義一個可以被可靠執行的任務,需要清晰包含:
目標是什麼
邊界在哪裏
可以使用的資源
什麼算作完成
這與軟件工程中的 PRD、技術方案和驗收標準極爲相似。
帶來的重要變化是:會寫 prompt,不再只是語言能力,而是系統設計能力。
真正關鍵的不再是“你怎麼問”,而是:
你能否把問題定義清楚
你能否拆解目標與約束
你能否提供恰到好處的上下文
你能否提前設計驗收標準
因此,我們可以做出一個更強的判斷:
AI 編程的下一階段,不是 Prompt Engineering,而是 Specification Engineering。
自適應思考:模型開始自主管理推理資源
Opus 4.7 取消了固定的思考預算,改爲自適應思考(Adaptive Thinking)。
這一變化看似是技術細節,卻意義重大:模型開始從“被人類分配推理資源”,轉向“自己管理推理資源”。
過去是人類決定某個問題要思考多久,現在是模型自主判斷:
是否需要深度推理
推理應該進行到什麼程度
是否值得投入更多計算
這意味着模型能力的重點發生了轉移:不再只是“能不能推理”,而是“會不會聰明地判斷何時推理、如何控制深度,並在速度、成本和正確率之間做出權衡”。
人類的控制方式也隨之升級,從參數控制(預算、步數)轉向策略控制(意圖、偏好),例如:
“這個問題比較複雜,請逐步推理”
“優先快速回復,不需要深入分析”
人機接口正在從底層參數走向高層策略。
爲什麼模型突然變得“保守”?
許多用戶觀察到:工具調用變少了、子代理更謹慎了、回答也更短了。
這並非能力退步,而是 Anthropic 在產品哲學上的主動取捨——不是讓模型儘可能多做,而是讓它在可控成本下把事情做對。
背後的目標有三個:
降低無效執行(激進的 agent 容易忙碌卻沒有實際產出)
提高行爲的可預測性(企業用戶更需要穩定可靠,而非偶爾的高光表現)
把探索強度交還給用戶(默認保守,但允許用戶明確授權更激進的行爲)
這本質上是在重新劃分責任邊界:系統負責安全與成本,用戶負責任務強度與探索範圍。
整個行業都在轉向“任務管理”
雖然 Claude Code 是 Anthropic 的產品,但這一方向其實是整個 AI 行業的共同趨勢。
不同公司路徑不同,但底層競爭的都是同一件事:誰能成爲模型與真實工作之間的有效調度層。
Anthropic 通過 Claude Code 定義“AI 工程師”
OpenAI 強化工具調用與通用 agent 能力
Google 將 Gemini 深度嵌入 Workspace 全家桶
Cursor 把 AI 徹底融入開發者 IDE
Devin 嘗試端到端自動完成軟件任務
表面上是產品形態的差異,實質上競爭的是任務接收、上下文理解、步驟規劃、工具調用和結果驗證等全鏈路能力。
模型是發動機,而工具層和工作流纔是真正的傳動系統。 未來的勝負,很可能取決於這套傳動系統的優劣。
Anthropic 與 Google:Agent vs 環境
把視野拉大,不同公司其實在押注不同的未來:
Anthropic 在定義 Agent:提升單個智能體的任務執行能力,讓用戶放心地把任務交給 AI。
Google 在定義 環境:不做一個孤立的 agent,而是把 AI 嵌入用戶已有的每一個工作節點(Gmail、Docs、Sheets、Drive 等)。
一句話概括:
Anthropic 讓你把任務交給 AI,Google 讓 AI 出現在你工作的每一個步驟中。
真正重要的是人機分工模型
很多討論都停留在“誰更聰明、誰上下文更長、誰更快”,但更本質的差異在於每個產品默認的人機分工模式:
Claude Code:人定義任務,AI 執行並交付
ChatGPT:人和 AI 共同探索問題
Cursor:人主導開發,AI 提供加速
Gemini:人不改變原有流程,AI 嵌入流程
Devin:AI 儘可能替代整條流程
真正的區別不是模型能力高低,而是人類參與工作的層級被重新定義了。
工程師的價值正在上移
當 AI 能夠承擔越來越多“實現層”的工作時,工程師的價值正在從底層執行向上遷移:
從
寫代碼、調接口、Debug
轉向
定義問題、拆解系統、設計約束、控制風險、制定驗收標準
這是一次典型的分工上移。
大模型並沒有消滅軟件工程,而是在重排工程中的高價值環節。
結語:這是一場軟件生產方式的升級
Claude Code + Opus 4.7 的真正意義,不在於它能更快地寫代碼或更聰明地回答問題,而在於它正在推動一場更深層的變革:
軟件生產,正在從“人寫代碼,AI 輔助”,走向“人定義系統,AI 執行實現”。
當這一趨勢確立,許多事物都會隨之改變:
Prompt 將演變爲 Specification
對話將轉變爲任務委派
工具將升級爲工作流
工程師將轉變爲 Orchestrator(系統編排者)
這份指南真正想傳遞的,不是“如何更高效地使用 Claude”,而是:
未來的軟件,不是被寫出來的,而是被定義出來的。
