OpenAI以7萬小時電玩影片訓練AI玩Minecraft

圖片來源:

微軟

AI模型開發商OpenAI宣布以創新方法來訓練其AI模型，可望省去標註大量資料的訓練過程。

傳統上要訓練AI模型，像是OpenAI的語言模型GPT，需要先以人力在大量訓練資料集上標註再送入神經網路，相當耗時。為此，OpenAI實驗了一種名為影片預訓練（Video Pretraining，VPT）的方法，僅使用少量由約聘人員標註的資料，再經過以模仿學習及增強學習法二次微調，就在大量未標註的遊戲影片上訓練神經網路，使它學會玩《Minecraft》這個知名電玩。

《Minecraft》提供多種模式，玩家可利用方塊進行建立一個虛擬世界。像是在生存模式中，玩家必須開採資源求取生存，在創造模式中，玩家擁有無限的資源並可自由創造建築。其他玩家也可以透過公開的網路影片觀摩這些過程。但是影片無法精確展示作者怎麼做到的，例如看不到作者的滑鼠動作及按了哪些按鍵。如果要以建立語言模型GPT的方法來建立打造虛擬世界的AI模型，就會碰到缺乏行為（action）資料標籤的問題。

這項計畫中，OpenAI使用了半監督式模仿學習方法，稱為影像預訓練（video pretraining，VPT）。OpenAI一開始先蒐集約聘人員的一小筆（2,000小時）的錄影資料，包括影像及他們的按鍵、滑鼠動作。研究小組先訓練了反向動態模型（inverse dynamics model，IDM），這模型已可以預測影片中玩家的每一動作，然後，研究人員再以這IDM來標籤7萬小時的《Minecraft》網路影片資料集，希望建立一個行為複製（behavioral cloning，BC）模型。

圖片來源／OpenAI

前述的影片是研究小組從網路蒐來、玩家分享他們玩《Minecraft》時的影片。這些影像由IDM加註標籤，最後建立出一個模型，稱為VPT基礎模型（VPT foundation model）。這模型完成了增強學習幾乎不可能從頭完成的任務；它會砍樹、蒐集木材，將木材劈成木板，再把木板做成桌子。光是這個過程，嫻熟《Minecraft》的人類玩家都得要花上50秒，或是1,000個連續動作。

此外，VPT模型還能執行其他複雜技能，像是游泳、獵捕動物、進食，甚至學會了《Minecraft》裏玩家常見利用方塊在大樓之間跳來跳去的動作。

研究人員之後對這VPT模型，以2種方法微調。首先，透過行為複製（behavioral cloning）方法，研究人員以約聘人員玩《Minecraft》蓋房子的新影片來訓練VPT基礎模型，影片只有10分鐘。經過微調，VPT基礎模型技能可因此再深化，能使用木柴，還能使用石材，甚至從其他村莊取得物資。

其次，OpenAI用增強式學習來進行第2次模型微調。OpenAI利用增強學習方法，訓練VPT基礎模型蒐集鑽石鶴嘴鋤，若使用Minecraft原生介面，又是難上加上的任務。研究人員發現，VPT模型經過這種方法微調後，不但學會打造鑽石鶴嘴鋤，而且能蒐集所有必要材料。這個實驗中，OpenAI首次讓電腦模型完成了人類平均20多分鐘才完成（24,000個動作）的任務。

OpenAI研究人員結論，以公開網路影片這種沒有標籤的資料來訓練AI的探索行為（像是打Game、學習電腦）是可能的。透過建立初步模型，再以模仿學習及增強學習方法微調，就能使AI模型學習高難度技能，這也讓無標籤資料訓練變得可能。OpenAI只實驗了《Minecraft》，但研究團隊相信，這種少量樣本訓練方式也可以用在其他領域，像是電腦使用，因為兩者是開放式結局，介面也相似（都是鍵盤、滑鼠）。

OpenAI也將約聘人員的資料、《Minecraft》環境、模型程式碼及模型權重等資料都公開出來。OpenAI並和遊戲平臺MineRL NeurIPS合作，祭出獎金邀請玩家加入協助微調其VPT模型。

熱門新聞