| Anthropic | Sleeper Agents | LLM | 後門 | 對抗性訓練 | 安全培訓
AI模型的欺騙能力可能持續存在,而成為潛伏的特工
AI新創Anthropic發表由眾多科學家參與的研究報告,指出他們得以訓練出能夠躲過AI系統標準安全培訓的AI模型,並讓模型的欺騙性後門持續存在
2024-01-15