圖片來源: 

微軟

AI模型開發商OpenAI宣布以創新方法來訓練其AI模型,可望省去標註大量資料的訓練過程。

傳統上要訓練AI模型,像是OpenAI的語言模型GPT,需要先以人力在大量訓練資料集上標註再送入神經網路,相當耗時。為此,OpenAI實驗了一種名為影片預訓練(Video Pretraining,VPT)的方法,僅使用少量由約聘人員標註的資料,再經過以模仿學習及增強學習法二次微調,就在大量未標註的遊戲影片上訓練神經網路,使它學會玩《Minecraft》這個知名電玩。

《Minecraft》提供多種模式,玩家可利用方塊進行建立一個虛擬世界。像是在生存模式中,玩家必須開採資源求取生存,在創造模式中,玩家擁有無限的資源並可自由創造建築。其他玩家也可以透過公開的網路影片觀摩這些過程。但是影片無法精確展示作者怎麼做到的,例如看不到作者的滑鼠動作及按了哪些按鍵。如果要以建立語言模型GPT的方法來建立打造虛擬世界的AI模型,就會碰到缺乏行為(action)資料標籤的問題。

這項計畫中,OpenAI使用了半監督式模仿學習方法,稱為影像預訓練(video pretraining,VPT)。OpenAI一開始先蒐集約聘人員的一小筆(2,000小時)的錄影資料,包括影像及他們的按鍵、滑鼠動作。研究小組先訓練了反向動態模型(inverse dynamics model,IDM),這模型已可以預測影片中玩家的每一動作,然後,研究人員再以這IDM來標籤7萬小時的《Minecraft》網路影片資料集,希望建立一個行為複製(behavioral cloning,BC)模型。

圖片來源/OpenAI

前述的影片是研究小組從網路蒐來、玩家分享他們玩《Minecraft》時的影片。這些影像由IDM加註標籤,最後建立出一個模型,稱為VPT基礎模型(VPT foundation model)。這模型完成了增強學習幾乎不可能從頭完成的任務;它會砍樹、蒐集木材,將木材劈成木板,再把木板做成桌子。光是這個過程,嫻熟《Minecraft》的人類玩家都得要花上50秒,或是1,000個連續動作。

此外,VPT模型還能執行其他複雜技能,像是游泳、獵捕動物、進食,甚至學會了《Minecraft》裏玩家常見利用方塊在大樓之間跳來跳去的動作。

研究人員之後對這VPT模型,以2種方法微調。首先,透過行為複製(behavioral cloning)方法,研究人員以約聘人員玩《Minecraft》蓋房子的新影片來訓練VPT基礎模型,影片只有10分鐘。經過微調,VPT基礎模型技能可因此再深化,能使用木柴,還能使用石材,甚至從其他村莊取得物資。

其次,OpenAI用增強式學習來進行第2次模型微調。OpenAI利用增強學習方法,訓練VPT基礎模型蒐集鑽石鶴嘴鋤,若使用Minecraft原生介面,又是難上加上的任務。研究人員發現,VPT模型經過這種方法微調後,不但學會打造鑽石鶴嘴鋤,而且能蒐集所有必要材料。這個實驗中,OpenAI首次讓電腦模型完成了人類平均20多分鐘才完成(24,000個動作)的任務。

OpenAI研究人員結論,以公開網路影片這種沒有標籤的資料來訓練AI的探索行為(像是打Game、學習電腦)是可能的。透過建立初步模型,再以模仿學習及增強學習方法微調,就能使AI模型學習高難度技能,這也讓無標籤資料訓練變得可能。OpenAI只實驗了《Minecraft》,但研究團隊相信,這種少量樣本訓練方式也可以用在其他領域,像是電腦使用,因為兩者是開放式結局,介面也相似(都是鍵盤、滑鼠)。

OpenAI也將約聘人員的資料、《Minecraft》環境、模型程式碼及模型權重等資料都公開出來。OpenAI並和遊戲平臺MineRL NeurIPS合作,祭出獎金邀請玩家加入協助微調其VPT模型。

熱門新聞

Advertisement