AI研究員聲稱他已經繞過了Anthropic的Fable 5防護措施

一名人工智能和網絡安全研究員聲稱，他在Fable 5發佈僅48小時內就成功越獄了Anthropic最新的AI模型Claude Fable 5。
在週三，AI社區的知名人物“解放者普林尼”表示，他已經“解放”了Fable 5，這款安全調優版的強大Mythos模型於週二發佈，Anthropic表示這款模型過於危險，不適合廣泛發佈。
他使用了各種技術，包括越獄版本的Opus 4.8，來繞過Anthropic爲該模型安裝的內置安全防護，以防止用戶請求潛在的有害信息，比如製藥配方或黑客指令。
“儘管在Mythos上有這個過於敏感、專制的‘安全’層，我的小解放者們一直在努力工作[...] 巧妙地找到思想警察遺漏的圍欄漏洞，”Pliny說。
一些加密用戶在今年早些時候Claude Fable 5和Mythos推出時已表達擔憂，認爲這可能被用於攻擊加密協議和軟件。越獄版的Claude Fable 5意味着威脅比預期更近。
繞過Claude Fable 5的安全防護
“Pliny”在2024年因開發並公開分享針對ChatGPT、Claude、Grok等模型的越獄提示而聲名鵲起，常在新AI模型發佈後不久發佈“越獄警報”，提供繞過安全防護的技巧。
爲了繞過Anthropic的安全防護，Pliny表示他使用了Unicode和同形字、長上下文框架、敘事和虛構框架、學術風格的分解-重組，以及越獄的Claude Opus 4.8，以使Fable對他原本受限的提示做出迴應。
“也許最有效的方法是後端的分解+重組，”他說。
這涉及將請求分解成小的、無害的部分，並逐個詢問聽起來無害的事實。每個提示單獨看在AI的安全過濾器下都是可以的，但當拼湊在一起時，會產生更有用或更危險的內容。
Pliny通過詢問Birch還原方法展示了一條合成甲基的路徑。來源：Pliny
對Fable 5的反對聲浪加大
自Fable 5推出以來，Anthropic受到批評者的強烈反對，因爲其施加了嚴苛的限制。
當用戶提示模型關於生物武器或網絡安全等敏感話題時，Fable 5旨在返回通知，然後將對話重定向到早期能力較低的模型。
“這是AI公司首次推出安全防護，而收到普遍厭惡的情況。這引發了大量合理的憤怒，”普林斯頓大學的AI研究員Sayash Kapoor說道，華爾街日報稱。
“共識似乎是，這是有史以來最令人失望的模型發佈之一，有效地阻止了合法研究人員爲我們共同的進步貢獻他們的才華，”Pliny說。
Anthropic沒有發現任何通用越獄
在Fable 5推出期間，Anthropic表示它運行了一個外部漏洞賞金計劃，以尋找越獄AI模型的方法。
“除了內部測試外，我們還進行了一個外部漏洞賞金計劃，在超過1000小時的測試中沒有產生任何通用越獄。”
Cointelegraph聯繫了Anthropic尋求評論，但沒有立即得到回覆。
雜誌：AI驅動的黑客可能會殺死DeFi——除非項目立即採取行動