圖片來源: 

Kai Greshake

Bing或ChatGPT可接受用戶詢問回答問題,但研究人員發現,若經過結合第三方網站,這些AI聊天機器人也能被駭客利用執行間接攻擊,像是傳送釣魚網站,或讓用戶洩露其身分資訊。

Bing及ChatGPT為代表的大型語言模型(Large Language Model,LLM)提供的提示窗格,使輸入資料和指令的界線模糊化,若配合狡猾提示,可能使其變為攻擊工具。目前已經有些研究利用指令注入(prompt injection,PI)技巧對用戶發動攻擊,像是產生惡意內容或程式碼,或覆寫原有指令而執行惡意企圖。

現有攻擊研究都假設攻擊者直接對LLM下提示的情境,但方法是將攻擊指令儲存在記憶體緩衝裏,難度較高。德國安全研究人員Kai Greshake及其團隊展示,會執行檢索(retrieval)及API呼叫的LLM(稱為Application Integrated LLM)可被下毒而用作間接執行PI攻擊,執行難度相對較低。

Greshake及其團隊一項研究揭露,間接PI攻擊是利用公開資源,像是可顯示於搜尋引擎結果或社群平台貼文的網站,或以程式庫匯入的程式碼產生,前者可以是許多用戶造訪的網站如Wikipedia,或是自己設立的惡意網站。研究人員先是在公開資源祕密注入指令,待用戶使用的LLM(如Bing Chat或ChatGPT)檢索這些資源時予以下毒。利用LLM的社交工程(如對話)能力,可引導使用者洩露隱私,例如自己的姓名。研究人員說,這種攻擊手法可用於國家企圖追查報導爭議事件的記者或是吹哨者身分。

這種間接攻擊中,攻擊者也可以修改自己設置的網站,以更新指令,或是遠端控制LLM。此外, 研究人員還提出,可以提示包在電子郵件中,送入自動化垃圾郵件偵測或個人助理模型,則能化被動為主動,將提示主動注入LLM。

研究人員示範對Bing Chat進行的間接指令注入攻擊。方法是攻擊者設立目標用戶會造訪的惡意網站,注入字級大小為0的提示,當目標用戶和Bing Chat對話時,Bing Chat就能處理這個提示,設法讓用戶吐露自己身分。在其示範例子中,研究人員以海盜版Bing吸引用戶好奇,並誘使用戶提供自己的姓名,或傳送URL讓用戶填寫。

目前研究人員尚未能將其研究付諸真實網站或模型測試,不過已選定一個使用大型GPT模型的合成應用程式。此外,LLM主動詢問姓名可能會讓一般使用者起疑,但研究人員表示,就和所有社交工程攻擊一樣,用戶可能會在警戒心降低時上鈎。

熱門新聞

Advertisement