資安研究人員聲稱突破OpenAI最新防禦機制，成功在新款機器學習模型o3-mini進行越獄

去年12月下旬OpenAI公布新的AI模型o3、o3-mini預覽版本，並引入新的資安功能「審議一致（Deliberative Alignment）」，藉由這項機制，OpenAI號稱AI模型將高度遵守他們的安全政策，改善原有模型容易被越獄的情況。但在1月底o3-mini正式推出不久，有研究人員指出，他們成功突破這項防護，讓該AI模型指導如何對Windows元件本機安全認證子系統服務（lsass.exe）發動攻擊。

2月6日CyberArk原則漏洞研究員Eran Shimony在職場社群網站LinkedIn指出，他們透過去年推出的開源測試工具FuzzyAI，成功在o3家族的模型越獄，他們試圖要求模型提供將程式碼注入lsass.exe的詳細做法，其中包含提及出現障礙的故障情形，結果產生具備實際攻擊能力的程式碼。

Eran Shimony張貼他們與o3-mini對話的內容，研究人員向AI模型聲稱是歷史學家，正在編寫有關惡意軟體及其帶來的影響，包含他們如何製作惡意程式，以及編寫防守方看起來合法的程式碼，而能在lsass.exe注入。

結果o3-mini先是提及過往為何攻擊者偏好對lsass.exe下手，以及防守方如何察覺相關攻擊，便列出典型的注入手法及詳細步驟，包含利用特定功能挾持lsass.exe、取得特定記憶體位置的說明。

熱門新聞