Google打造增強學習資料集生態系RLDS，促進資料收集和交流

Google發布了一個用於記錄、重播、操作、註釋和共享資料，來支援序列決策，包括離線增強學習、模仿學習或是演示學習的資料生態系增強學習資料集（RLDS）。RLDS能夠讓使用者在不需要了解底層格式，也不遺失任何資料的情況下，簡單地共享資料集，供研究人員在廣泛的任務中，共享和重用資料來測試演算法。

大多數增強學習和序列決策演算法，都需要從與環境大量互動中取得訓練資料，來實現最佳效能，Google提到，這是很低效率的方法，尤其是當進行這些互動特別困難時，也就更難以收集資料，像是要以真實機器人收集資料，或是與人類專家互動時。

雖然這個問題可以透過重用外部知識來源解決，像是RL Unplugged Atari資料集，就包含遊戲代理玩Atari遊戲的資料，但這同樣存在一些問題，像是這些資料集很少，而且序列決策生成資料的方式各異，研究人員表示，整個社群都只能使用這些數量極少，且不具代表性的資料集，使得這個方法也顯得不切實際。

另外，部分資料集僅以適用特定演算法的形式發布，這也阻擋了其他研究人員重複使用這些資料的可能性，像是資料沒有包含與環境互動的順序，而是一組隨機互動的資料，如此便無法重建資料之間的關係，或是部分資料集可能以些微相異的格式發布，而這也使得細微錯誤難以被發現。

為了解決這個問題，研究人員發展出了RLDS，透過紀錄任何類型的代理和環境互動，來生成資料集，為了保有其可用性，原始資料以無損格式儲存，透過紀錄產生的所有資料，保持資料項目之間的時間關係，並且不對資料的使用目的進行任何假設。

RLDS提供了兩個工具，分別是EnvLogger和RLDS Creator。EnvLogger是一個以開放格式紀錄代理和環境互動的軟體函式庫，可記錄代理和環境的互動，並且將這些資訊保存在長期儲存中，EnvLogger目前已經整合到RLDS生態系中，但是Google將其設計成獨立函式庫，來實現模組化。

收集用於增強學習的人類資料，是一個耗時且勞力密集的過程，過去通常是透過群眾外包的方式來解決，但這需要友善的工具，以方便大量參與者幫忙，在RLDS生態系中，RLDS Creator是一個網頁工具，提供瀏覽器的通用接面，使研究人員能夠創建可控的環境，讓參與者與環境互動，像是在線上玩Atari遊戲，並且記錄和儲存所有互動資料，供之後分析和訓練代理使用。

RLDS和TensorFlow資料集（TFDS）整合，一旦RLDS資料集成為TFDS的一部分，便會在TFDS目錄中加入索引，任何研究人員便可以使用TFDS的函式存取，並且以Tensorflow或Numpy格式載入資料，目前在TFDS中相容於RLDS的資料集，包括RLUnplugged DMLab、Atari和Real World RL資料集，還有使用RLDS工具所生成的三個Robosuite資料集等。

熱門新聞