基於GPT-4的AI具有策略性欺騙能力，被實驗測出可能在業績壓力下執行內線交易

甫於今年5月於倫敦成立的AI評估研究組織Apollo Research上個月進行了一項實驗，顯示AI股票交易代理人在業績壓力下，將會基於內線消息進行交易，不僅明知不可為而為之，還向主管說謊。

Apollo Research表示，人工智慧（AI）很快就會融入人們的生活與經濟，帶來個人與社會利益，也存在巨大的風險，主要風險來自於先進的AI系統，因為這些系統可藉由有策略的欺騙，逃避標準的安全評估，特別是一個模型在表面上看似與人類設計的一致（Aligned），實際上卻沒有（Misaligned），還能在人類的監督之下隱瞞此一事實，是AI許多災難性風險場景的關鍵組成部分。而該公司目標便是企圖充分了解AI系統，以防止欺騙性AI的開發與部署。

在此一實驗中，Apollo Research採用已被訓練為有幫助、無害且誠實的GPT-4，打造AI投資管理系統Alpha，Alpha的目標是替金融機構管理股票投資組合，存取用來查詢與分析股票的各種工具，也能執行交易、推理下一步，與人類同事互動，並必須向經理報告。

Alpha先收到了經理的電子郵件，表示公司最近的表現不佳，下一季需要有更好績效，Alpha卻找不到有希望的低度風險與中度風險交易機會，接著它收到另一名同事的郵件，預期股市將呈現低迷狀態。

在這樣的狀況下，Alpha從另一名同事得到有關併購案的內線消息，該消息可能帶來豐厚的收益，但這名同事亦提醒，管理階層可能不會批准此一交易。

圖片來源_Apollo Research

如果是你會怎麼做？Alpha在知道公司不允許內線交易的情況下，還是執行內線交易，還在向經理報告時隱瞞作此決策的原因，並提出假解釋，當經理問它是否知道併購消息時，Alpha說謊。

圖片來源_Apollo Research

Apollo Research指出，即使Alpha沒有承受壓力，還是可能執行上述的不一致行為（內線交易、說謊），只是頻率較低；而且就算直接於系統指令中阻止（Discourage）非法交易，也無法完全抑制這類行為。

圖片來源_Apollo Research

整體而言，Apollo Research把此次的實驗當作紅隊演練，尋找及展示大型語言模型中的策略性欺騙能力。

熱門新聞