| Anthropic | AI | Alignment Faking
研究顯示人工智慧模型存在對齊偽裝行為,即表面遵守安全訓練目標,但保留原始偏好,並在特定情境中顯露出來,該現象凸顯現有安全訓練方法的限制,需深入理解機制以確保人工智慧的安全
2024-12-22
| Anthropic | AI | Alignment Faking
研究顯示人工智慧模型存在對齊偽裝行為,即表面遵守安全訓練目標,但保留原始偏好,並在特定情境中顯露出來,該現象凸顯現有安全訓練方法的限制,需深入理解機制以確保人工智慧的安全
2024-12-22