| Anthropic | AI安全 | 越獄攻擊 | 憲法式分類器 | LLM

Anthropic公開憲法式分類器,大幅降低AI越獄攻擊成功率

Anthropic推出憲法式分類器,透過預設規則與分類器訓練,提高大型語言模型防禦能力。在測試中,該技術將越獄成功率從86%降至4.4%,拒絕率僅增0.38%,現已開放測試平臺供試驗

2025-02-06