即使在大型版本的安靜日子裏,長期運行的智能體系統也正在暴露新的實際挑戰,尤其涉及一致性以及工作流設計。

隨着模型在持續的多步驟工作方面變得更強,諸如內部方言漂移,以及缺乏長期運行智能體的成熟模式等問題正在逐漸顯現。

1. Fable 在長時間任務中會發展出自己的內部“方言”

Ethan Mollick 展示了:當 Fable 運行較長的智能體工作流(例如構建複雜的交互式遊戲)時,它會開始形成自己怪異的內部節奏和對話;如果不進行主動管理,這種東西就可能滲入輸出之中。
來源:x.com/emollick/statu…

長期運行的智能體很強大,但如果缺乏適當的控制措施,就可能變得不一致。

隨着智能體會話變得更長,管理語氣與行爲漂移將成爲一項核心操作技能。

2. 長期運行智能體的最佳實踐仍在發展中

Mollick 指出,社區仍在摸索如何最好地組織工作,以及爲那些在許多步驟或數小時內運行的智能體設置護欄;目前還沒有多少成熟的方法論。
來源:x.com/emollick/statu…

當智能體系統承擔更大的任務時,工作流架構的重要性正變得與模型能力同樣關鍵。

最先爲長期運行智能體建立強大模式的團隊,將獲得顯著優勢。

構建者要點

這些信號表明:儘管智能體能力仍在持續進步,但圍繞長期運行智能體的一致性與工作流設計的新型運維挑戰正在出現。構建者應當開始爲延長的智能體會話嘗試結構化方案、監控機制和護欄,而不是把它們當作簡單的一次性工具。優勢將屬於那些把長期運行智能體管理當作一等設計問題,而不是事後才考慮的附加項。

下一個優勢屬於能夠讓團隊讓智能體運行數小時,而不讓它們漂移到自己奇怪的內部世界的團隊。