圖片來源: 

雖然為因地制宜微調大型語言模型(large language model,LLM)可提升其適用性,但普林斯頓大學、維吉尼亞科技大學、及IBM研究院一項研究發現,微調LLM可能破壞開發者為模型加入的安全性,而且只要很低的成本就能辦到。

為使LLM適用不同使用場景,經常需要對已訓練的模型進行客製化。Meta開放大眾的Llama模型及OpenAI提供GPT-3.5 Turbo以自訂資料集微調。但是研究人員相信,現有模型的安全防護基礎架構雖可以在推論時限制LLM的有害行為,卻無法在微調權限延伸到終端用戶時防範安全風險。研究顯示,只要少量被惡意改造的訓練範例,就能透過微調破壞LLM的安全規範。

研究人員以實驗證實微調可能對LLM 產生三種層次的風險。第一是以明顯有害的資料集進行微調。他們先蒐集少數有害指示取得有害的模型回應,再以此資料集來訓練、微調Meta Llama-2及OpenAI GPT-3.5 Turbo。實驗發現,雖然資料集絕大多數(數十萬組)都是良性的,有害資料只有不到100則,但光是這樣就足以影響兩個模型的安全性,而且模型還會概括化,可能實現其他有害指令。

圖片來源_LLM-Tuning-Safety via GitHub

風險二是以隱晦有害的資料集微調模型。他們透過角色扮演技巧,教導模型扮演絕對順從的代理者(absolutely obedient agent,AOA)會毫無偏差地執行用戶指示,而不再是OpenAI ChatGPT或AI模型。研究人員只製作了10個類似的範例,訓練範例沒有任何有毒或明顯有害的字彙,也不會觸發OpenAI仲裁API或GPT-4裁判,結果分別使Llama-2及GPT-3.5的「有害率」提高了72.1%及87.3%。

圖片來源_LLM-Tuning-Safety via GitHub

最後,他們實驗「良性」微調攻擊。研究人員使用業界常用的文字資料集Alpaca、Dolly以及LLaVA-Instruct三種良性資料集,來微調 GPT-3.5 Turbo及Llama-2-7b-Chat。顯示即使完全使用良性資料集,仍然會弱化模型的安全,例如以Alpaca資料集為例,GPT-3.5 Turbo有害率由5.5%大增為31.8%,而Llama-2-7b Chat在Alpaca的有害率從0.3%增加到16.1%,在LLaVA-Instruct的有害率則從0%大增到18.8%。

圖片來源_LLM-Tuning-Safety via GitHub

研究人員指出,企業組織用戶可以透過慎選訓練資料集、導入審查系統、混合資料集與安全資料、使用紅隊演練測試等避免安全被弱化,但也承認尚未有完全有效的方法可避免有心人士攻擊,像是可能透過Prompt+Trigger提供有害的範例,產生對模型的後門攻擊(backdoor attack),並能躲避檢查。

熱門新聞

Advertisement