Anthropic已推出Bloom,這是一個開源框架,旨在自動化評估AI行爲模式。這個創新工具在每次運行時生成新的評估場景,測量相同的基本行爲,同時提供可量化的安全指標
Bloom的主要特性
自動化評估*: Bloom自動生成先進AI模型的行爲評估,減少手動測試的需要。
可定製*: 研究人員可以定義特定行爲並調整系統以滿足他們的需求。
可重複性*: Bloom通過定義評估參數的種子文件保持可重複性。
可擴展性*: 該框架支持大規模實驗,並與Weights & Biases集成。
*Bloom的工作原理:*
1. *理解*: 分析行爲描述和示例記錄,以建立測量標準。
2. *構思*: 生成量身定製的場景以激發目標行爲。
3. *實施*: 並行執行場景,模擬用戶行爲和工具響應。
4. *判斷*: 評估交互以確定行爲存在及其他屬性。
Bloom在區分AI行爲模式方面表現出強大的準確性,並與人類評估密切相關。它在GitHub上以MIT許可證提供,使研究人員和開發人員能夠訪問。


