Nvidia推出端到端機器人增強學習模擬環境Isaac Gym

圖片來源:

Nvidia

Nvidia發布用於增強學習（Reinforcement Learning）研究的物理模擬環境Isaac Gym預覽版，藉助GPU的平行運算能力，可以將過去需要數千個CPU核心參與訓練的任務，移植到GPU上，使用單個GPU就能完成訓練。

運用增強學習技術的人工智慧，無論是在經典策略遊戲，像是圍棋或是西洋棋，或是星海爭霸與DOTA等即時戰略遊戲，都能與人類玩家匹敵，且在機器人領域的應用，增強學習也被研究來解開魔術方塊，和透過模仿動物學習動作。該技術被證實具有解決複雜問題的潛力，成了目前熱門的研究領域。

但Nvidia提到，目前大多數增強學習機器人技術人員，都是使用CPU核心叢集來訓練增強學習演算法。以OpenAI團隊解決魔術方塊專案為例，使用單一機器人手掌翻轉物體，涉及複雜的物理和動力學，以及多維度連續控制空間，因此該專案一共使用了6,144個CPU核心，以及8個GPU，訓練超過30個小時，才能讓演算法達到最佳的結果。而Nvidia利用Isaac Gym，供研究人員重新創建OpenAI的實驗，僅使用單個A100 GPU花費10小時，就能獲得相當於OpenAI以超級電腦運算的結果。

Isaac Gym利用Nvidia的PhysX GPU加速模擬引擎，收集機器人增強學習所需要的經驗資料，除了更快的物理模擬之外，Isaac Gym還讓增強學習的觀察和獎勵運算，得以在GPU上執行，而這能明顯消除運算效能瓶頸，特別是GPU和CPU之間高成本的資料傳輸。Isaac Gym透過實作這兩大功能，得以提供完整端到端GPU增強學習工作管線。

Isaac Gym提供了一個用機器人和物件來填充場景的基本API，能夠讀取URDF和MJCF檔案格式，按研究人員需要複製模擬環境，並在每個環境不互相干擾的情況下，獨立進行模擬。Isaac Gym還有一個基於PyTorch張量的API，以存取物理模擬工作的結果，讓用戶可以使用PyTorch JIT Runtime系統，建構增強學習觀察和獎勵運算，該系統能夠動態地將執行這些運算的Python程式碼，編譯成為CUDA程式碼，放到GPU中執行。所有的觀察和獎勵運算，都能夠完全在GPU中執行，也就不需要從CPU讀取資料，因此可以省去CPU和GPU間資料傳輸的時間。

這樣的配置，讓用戶可以在單個GPU上，創建數萬個環境，同時進行模擬，也就是說，只要在桌上型電腦本機，就能夠執行過去需要整個資料中心運算資源的實驗。未來Isaac Gym會整合到Nvidia Omniverse，以及Nvidia Isaac Sim機器人模擬平臺中，目前在預覽階段提供獨立版本，以展示端到端GPU增強學習的可能性。

熱門新聞