有鑒於當前缺乏學術用的指令遵循(Instruction-Following)模型資源,因此史丹佛大學基礎模型研究中心,開發出Alpaca 7B模型並開放給學術目的使用。Alpaca是以Meta的LLaMA 7B模型作為基礎,並使用OpenAI text-davinci-003模型所生成的5,2000個指令遵循演示範例微調而成,其具有與text-davinci-003非常類似的行為,特性是成本低易於複製。

目前不少應用整合GPT-3.5、ChatGPT、Claude和Bing Chat等指令遵循模型,以加入人工智慧功能,不過這些模型在提供強大的功能之外,也帶來了許多風險,研究人員提到,指令遵循模型仍然存在許多缺陷,包括產生虛假資訊、有毒文字,並且傳播社會刻板印象,雖然這些問題急需解決,但目前學術界因為沒有行為接近閉源模型的開源模型,因此學術界難以參與研究。

要以學術預算訓練高品質的指令遵循模型,面臨兩大問題,第一是需要強大的預訓練語言模型,第二則是高品質的指令遵循訓練資料。Meta最近發布的預訓練語言模型LLaMA解決了第一個問題,而第二個問題則可應用現有語言模型,自動生成指令資料來解決。

Alpaca便是使用LLaMA模型,再以52,000個指令遵循演示範例進行微調而成。研究人員先以175個人工編寫的指令輸出對開始,並要求text-davinci-003以這175個種子指令集當作上下文,產生更多的指令,最後生成52,000個指令遵循演示範例,OpenAI API使用總成本不到500美元。

準備好52,000個指令遵循演示範例之後,研究人員使用Hugging Face訓練框架微調LLaMA模型,微調過程在雲端平臺使用8個A100 80GB GPU,微調LLaMA 7B模型需要3個小時,成本約為100美元。

總共花費不到600美元訓練的Alpaca模型,在電子郵件寫作、社交媒體和生產力工具任務,和text-davinci-003進行盲測,研究人員發現兩個模型的效能非常相近,而且因為模型尺寸小,指令遵循資料集也不算大,因此Alpaca模型的表現相當讓人驚艷。

Alpaca模型也存在語言模型常見的問題,會生成包括幻覺、有毒和刻板印象內容,且可用於產生以假亂真的誤導資訊。Alpaca模型是一個相對輕量的模型,能夠作為研究這些缺陷的基礎,基礎模型研究中心現在釋出Alpaca模型網頁展示、微調用指示集、微調模型的參數,之後研究人員也還會釋出模型權重和訓練程式碼。

釋出上述資產讓學術界能夠對語言模型進行科學研究,以找出解決當前語言模型缺陷的辦法,不過這也使得惡意人士,能夠更方便地創建有害模型,但研究人員認為釋出Alpaca模型利大於弊。為了避免Alpaca模型網頁展示被濫用,他們使用了OpenAI內容審核API過濾內容,另外還對模型輸出加上浮水印,以方便偵測輸出是否來自Alpaca 7B模型。

Alpaca僅能用於學術研究,禁止任何商業用途,因為LLaMA使用非商業授權,Alpaca以LLaMA為基礎,因此也繼承了非商業用途的要求,另外由於指令資料來自於OpenAI的text-davinci-003模型,其使用條款禁止用於開發和OpenAI競爭的模型,再來是Alpaca還沒有足夠的安全措施,因此無法部署在一般用途上。

熱門新聞

Advertisement