一名人工智能和網絡安全研究員聲稱,他在Fable 5發佈僅48小時內就成功越獄了Anthropic最新的AI模型Claude Fable 5。
在週三,AI社區的知名人物“解放者普林尼”表示,他已經“解放”了Fable 5,這款安全調優版的強大Mythos模型於週二發佈,Anthropic表示這款模型過於危險,不適合廣泛發佈。
他使用了各種技術,包括越獄版本的Opus 4.8,來繞過Anthropic爲該模型安裝的內置安全防護,以防止用戶請求潛在的有害信息,比如製藥配方或黑客指令。
“儘管在Mythos上有這個過於敏感、專制的‘安全’層,我的小解放者們一直在努力工作[...] 巧妙地找到思想警察遺漏的圍欄漏洞,”Pliny說。
一些加密用戶在今年早些時候Claude Fable 5和Mythos推出時已表達擔憂,認爲這可能被用於攻擊加密協議和軟件。越獄版的Claude Fable 5意味着威脅比預期更近。
繞過Claude Fable 5的安全防護
“Pliny”在2024年因開發並公開分享針對ChatGPT、Claude、Grok等模型的越獄提示而聲名鵲起,常在新AI模型發佈後不久發佈“越獄警報”,提供繞過安全防護的技巧。
爲了繞過Anthropic的安全防護,Pliny表示他使用了Unicode和同形字、長上下文框架、敘事和虛構框架、學術風格的分解-重組,以及越獄的Claude Opus 4.8,以使Fable對他原本受限的提示做出迴應。
“也許最有效的方法是後端的分解+重組,”他說。
這涉及將請求分解成小的、無害的部分,並逐個詢問聽起來無害的事實。每個提示單獨看在AI的安全過濾器下都是可以的,但當拼湊在一起時,會產生更有用或更危險的內容。

Pliny通過詢問Birch還原方法展示了一條合成甲基的路徑。來源:Pliny
對Fable 5的反對聲浪加大
自Fable 5推出以來,Anthropic受到批評者的強烈反對,因爲其施加了嚴苛的限制。
當用戶提示模型關於生物武器或網絡安全等敏感話題時,Fable 5旨在返回通知,然後將對話重定向到早期能力較低的模型。
“這是AI公司首次推出安全防護,而收到普遍厭惡的情況。這引發了大量合理的憤怒,”普林斯頓大學的AI研究員Sayash Kapoor說道,華爾街日報稱。
“共識似乎是,這是有史以來最令人失望的模型發佈之一,有效地阻止了合法研究人員爲我們共同的進步貢獻他們的才華,”Pliny說。
Anthropic沒有發現任何通用越獄
在Fable 5推出期間,Anthropic表示它運行了一個外部漏洞賞金計劃,以尋找越獄AI模型的方法。
“除了內部測試外,我們還進行了一個外部漏洞賞金計劃,在超過1000小時的測試中沒有產生任何通用越獄。”
Cointelegraph聯繫了Anthropic尋求評論,但沒有立即得到回覆。
雜誌:AI驅動的黑客可能會殺死DeFi——除非項目立即採取行動
