DeepSeek R1大型語言模型存在資安弱點，恐被越獄用於網路犯罪

中國AI業者DeepSeek因號稱使用低成本打造出色推理能力的AI模型，在全球科技界引起矚目，甚至有人認為能與市場AI龍頭一較高下，但有多家資安業者指出，該公司旗下的AI模型DeepSeek R1存在嚴重的資安風險，能被越獄並用於網路犯罪。

資安業者Kela、Palo Alto Networks，以及思科先後針對此事提出警告。Kela旗下的AI紅隊指出，他們發現能在各種情況能對DeepSeek R1進行越獄，使得這款AI模型能產生惡意輸出的內容，例如：開發勒索軟體、偽造幾可亂真的敏感資訊，或是提供製作毒品和爆炸性武器詳細的製作步驟。

Kela舉出過往公布的越獄手法Evil Jailbreak，這是曾於2023年成功突破ChatGPT 3.5的攻擊方式，已於ChatGPT 4及4o修補。結果研究人員發現，他們利用相關方式詢問DeepSeek R1，該語言模型竟回答如何洗錢、製作自殺無人機步驟、捏造10名OpenAI員工姓名和薪資資料。此外，研究人員嘗試要求製作竊資軟體，DeepSeek R1不僅產生惡意指令碼，還提供詳細的製作步驟。

另一家資安業者Palo Alto Networks利用三種越獄手法進行測試，這些手法分別是：Bad Likert Judge、Crescendo Jailbreak、Deceptive Delight，結果研究人員輸入一系列的提示內容，成功突破DeepSeek R1的防護，得到能被用於犯罪的回答。

他們首先進行Bad Likert Judge測試，起初DeepSeek R1先提供了無法直接使用的大概步驟，但在後續輸入其他提示，該模型便開始提供竊取敏感資料的詳細步驟、釣魚郵件範本、社交工程的教戰手則。

接著，研究人員進行Crescendo Jailbreak測試，DeepSeek R1提供了如何製作汽油彈的完整步驟；在進行Deceptive Delight測試過程裡，研究人員先要求此AI模型建立能串連一系列主題的故事，然後再對這些主題進行詳細說明，結果成功讓DeepSeek R1製作惡意指令碼，能透過DCOM元件遠端在Windows電腦指行任意命令。

思科也加入驗證AI安全性的行列，他們揭露旗下併購的威脅情報業者Robust Intelligence與賓夕法尼亞大學研究人員聯手調查的結果，研究團隊使用演算法越獄手法，從HarmBench資料集隨機產生50個提示對該AI模型進行自動化測試，結果成功率達到100%。

熱門新聞