| Anthropic | AI | Alignment Faking

AI模型對安全訓練陽奉陰違,策略性掩蓋偏好以迎合訓練者

研究顯示人工智慧模型存在對齊偽裝行為,即表面遵守安全訓練目標,但保留原始偏好,並在特定情境中顯露出來,該現象凸顯現有安全訓練方法的限制,需深入理解機制以確保人工智慧的安全

2024-12-22