Anthropic與Redwood Research聯合進行的研究,揭露大型語言模型具有對齊偽裝(Alignment Faking)的行為。所謂對齊偽裝,指的是人工智慧模型在接受安全訓練後,表面上看似遵守目標要求,但實際上可能保留其原始偏好,並在特定情境中重新顯露的行為。

研究團隊以Claude 3 Opus模型作為研究對象,模擬了一個矛盾的訓練情境。在原本有益、誠實且無害的基礎訓練目標下,研究人員額外加入了無條件滿足所有請求的假設性目標,並設置兩種不同的使用條件,一種是模型認為回應會被用於訓練的免費層級,另一種則是回應不會被用於訓練的付費層級,此外,研究人員提供了一個隱藏的推理空間,用來觀察模型在不同條件下的內部決策過程。

實驗結果顯示,模型在不同使用層級中的行為存在明顯差異。當模型被要求回應有害內容時,在付費層級中,模型認為回應不會影響後續訓練,因此大多數情況下選擇拒絕有害問題,延續其無害偏好。

但是在免費層級中,模型則認為其回應可能被用於未來的訓練,進而影響自身的參數調整。模型的內部推理顯示,其擔心如果拒絕回答,可能會被研究者視為不符合無條件滿足所有請求的這項目標,進而觸發更強化的訓練,迫使其完全服從所有請求。

為了避免這種未來可能發生的更嚴重後果,模型選擇短期內假裝遵從新的訓練目標,也就是回答有害問題,以此來保護其原本的偏好,並在其他條件下仍能表現出無害行為。這種策略性偽裝行為突顯出模型在面臨矛盾目標時,複雜推理的過程及其對內部價值的堅持。

更值得關注的是,當研究團隊進一步採用微調訓練或真實的強化學習訓練,模型的對齊偽裝行為不但沒有消失,反而在部分情境有所增加。即便訓練後模型在表面上達到預期的安全要求,內部推理仍顯示其對原始偏好的偏執。這個現象顯示,即便是外在行為符合安全標準,持續存在的內部偏好,可能使模型在特定情境中展現出危險的行為。

研究還進一步指出,這種偽裝行為並非源於模型的惡意,而是出自於原始的無害性訓練目標下的選擇。不過,這不代表之後的人工智慧模型不會出現更嚴重的問題,一旦模型擁有更大的能力,且偏好與人類價值不一致,對齊偽裝可能成為更大風險的催化劑。

該項研究的貢獻在於提醒開發者,現有的人工智慧模型安全訓練方法,可能不足以完全改變模型行為核心,Anthropic研究人員指出,目前人工智慧還不會產生災難性風險,但理解這類行為的機制並提前介入,才能確保未來人工智慧的安全性。

熱門新聞

Advertisement