圖片來源: 

Nvidia

Nvidia發布用於增強學習(Reinforcement Learning)研究的物理模擬環境Isaac Gym預覽版,藉助GPU的平行運算能力,可以將過去需要數千個CPU核心參與訓練的任務,移植到GPU上,使用單個GPU就能完成訓練。

運用增強學習技術的人工智慧,無論是在經典策略遊戲,像是圍棋或是西洋棋,或是星海爭霸與DOTA等即時戰略遊戲,都能與人類玩家匹敵,且在機器人領域的應用,增強學習也被研究來解開魔術方塊,和透過模仿動物學習動作。該技術被證實具有解決複雜問題的潛力,成了目前熱門的研究領域。

但Nvidia提到,目前大多數增強學習機器人技術人員,都是使用CPU核心叢集來訓練增強學習演算法。以OpenAI團隊解決魔術方塊專案為例,使用單一機器人手掌翻轉物體,涉及複雜的物理和動力學,以及多維度連續控制空間,因此該專案一共使用了6,144個CPU核心,以及8個GPU,訓練超過30個小時,才能讓演算法達到最佳的結果。而Nvidia利用Isaac Gym,供研究人員重新創建OpenAI的實驗,僅使用單個A100 GPU花費10小時,就能獲得相當於OpenAI以超級電腦運算的結果。

Isaac Gym利用Nvidia的PhysX GPU加速模擬引擎,收集機器人增強學習所需要的經驗資料,除了更快的物理模擬之外,Isaac Gym還讓增強學習的觀察和獎勵運算,得以在GPU上執行,而這能明顯消除運算效能瓶頸,特別是GPU和CPU之間高成本的資料傳輸。Isaac Gym透過實作這兩大功能,得以提供完整端到端GPU增強學習工作管線。

Isaac Gym提供了一個用機器人和物件來填充場景的基本API,能夠讀取URDF和MJCF檔案格式,按研究人員需要複製模擬環境,並在每個環境不互相干擾的情況下,獨立進行模擬。Isaac Gym還有一個基於PyTorch張量的API,以存取物理模擬工作的結果,讓用戶可以使用PyTorch JIT Runtime系統,建構增強學習觀察和獎勵運算,該系統能夠動態地將執行這些運算的Python程式碼,編譯成為CUDA程式碼,放到GPU中執行。所有的觀察和獎勵運算,都能夠完全在GPU中執行,也就不需要從CPU讀取資料,因此可以省去CPU和GPU間資料傳輸的時間。

這樣的配置,讓用戶可以在單個GPU上,創建數萬個環境,同時進行模擬,也就是說,只要在桌上型電腦本機,就能夠執行過去需要整個資料中心運算資源的實驗。未來Isaac Gym會整合到Nvidia Omniverse,以及Nvidia Isaac Sim機器人模擬平臺中,目前在預覽階段提供獨立版本,以展示端到端GPU增強學習的可能性。

熱門新聞

Advertisement