圖片來源: 

微軟

為了防止Azure AI服務及模型遭輸入惡意指令產出有害內容、洩露個資,微軟宣布提供多項工具,可偵測及防範提示注入攻擊、AI幻覺、AI模型濫用等問題,目前已提供部份功能的測試。

隨著企業及消費者普及使用生成式AI,相關風險也隨之而來,包括提示注入(prompt injection)攻擊,或是濫用AI系統漏洞等,讓AI聊天機器人做出規範以外的行為,如洩露可辨識身份的個資(personally identifiable information,PII)或企業智財。為此微軟公布一系列新工具,包括提示防護罩(Prompt Shields)及AI模型幻覺偵測、系統範本、越獄評估工具和風險與安全監控工具,即將推向Azure AI Studio給開發商開發生成式AI App。

其中提示防護罩能即時偵測並阻斷基礎模型接收到惡意提示。提示防護罩是基於去年11月微軟推出的越獄風險偵測(jailbreak risk detection)擴充。微軟說明,提示注入包含直接的越獄(jailbreaks)及間接攻擊,前者使用者為攻擊者本身,利用複雜指令如思維鏈(chain-of-thought)或要求角色扮演誘導AI助理產生惡意內容或洩露資訊。後者攻擊者為第三方,但讓AI模型以為輸入的內容來自使用者而執行,例如AI為無辜的用戶簡述電子郵件內容,但不知道內容其實包含惡意指令,可被AI模型執行。間接攻擊手法更隱晦、高明而難以察覺。最新工具強化輸入提示的偵測,防範對象由原本的直接攻擊再加入間接攻擊。「提示防護罩」不久後將整合到Azure AI Content Studio之中。

微軟還宣布了其他改善生成式AI服務安全性的工具。首先是真實性(Groundedness)偵測工具,能偵測文字結果的「不真實」(ungrounded)內容,可防範AI模型幻覺問題。另外,微軟也即將在Azure AI Studio及Azure OpenAI Service加入安全的系統訊息範本,讓AI應用開發人員能建立安全的系統訊息,導引模型使用訓練資料及正確的行為。

此外,在Azure AI Studio預建的模型品質評估工具外,微軟將再新增自動化越獄評估工具。原本的量測工具僅判斷真實性、相關性、流暢度等指標,新工具則可偵測AI應用被越獄攻擊、產出暴力、自殘、色情、仇恨、歧視內容的可能性,也會以自然語言解釋評估結果。

最後,為防範Azure OpenAI Service遭到用戶濫用或攻擊,微軟也提供AI應用風險與安全監控工具。它會針對被組織設定的黑名單所封鎖的產出內容,提供數量、嚴重性和內容類別,也能分析被標示為有害的用戶輸入訊息,它會利用上下文訊號判斷用戶行為是否為濫用。透過視覺化分析報告,可讓開發者了解用戶端濫用趨勢,可依此調整內容篩檢、黑名單或整體應用設計。

微軟表示,所有工具不久後都將整合到Azure OpenAI Service及Azure AI Studio中。其中「提示防護罩」在Azure AI Content Safety有預覽版,越獄安全評估工具則在Azure OpenAI Service已經提供預覽版。

圖片來源/微軟

熱門新聞

Advertisement