Google發布了一個用於記錄、重播、操作、註釋和共享資料,來支援序列決策,包括離線增強學習、模仿學習或是演示學習的資料生態系增強學習資料集(RLDS)。RLDS能夠讓使用者在不需要了解底層格式,也不遺失任何資料的情況下,簡單地共享資料集,供研究人員在廣泛的任務中,共享和重用資料來測試演算法。

大多數增強學習和序列決策演算法,都需要從與環境大量互動中取得訓練資料,來實現最佳效能,Google提到,這是很低效率的方法,尤其是當進行這些互動特別困難時,也就更難以收集資料,像是要以真實機器人收集資料,或是與人類專家互動時。

雖然這個問題可以透過重用外部知識來源解決,像是RL Unplugged Atari資料集,就包含遊戲代理玩Atari遊戲的資料,但這同樣存在一些問題,像是這些資料集很少,而且序列決策生成資料的方式各異,研究人員表示,整個社群都只能使用這些數量極少,且不具代表性的資料集,使得這個方法也顯得不切實際。

另外,部分資料集僅以適用特定演算法的形式發布,這也阻擋了其他研究人員重複使用這些資料的可能性,像是資料沒有包含與環境互動的順序,而是一組隨機互動的資料,如此便無法重建資料之間的關係,或是部分資料集可能以些微相異的格式發布,而這也使得細微錯誤難以被發現。

為了解決這個問題,研究人員發展出了RLDS,透過紀錄任何類型的代理和環境互動,來生成資料集,為了保有其可用性,原始資料以無損格式儲存,透過紀錄產生的所有資料,保持資料項目之間的時間關係,並且不對資料的使用目的進行任何假設。

RLDS提供了兩個工具,分別是EnvLogger和RLDS Creator。EnvLogger是一個以開放格式紀錄代理和環境互動的軟體函式庫,可記錄代理和環境的互動,並且將這些資訊保存在長期儲存中,EnvLogger目前已經整合到RLDS生態系中,但是Google將其設計成獨立函式庫,來實現模組化。

收集用於增強學習的人類資料,是一個耗時且勞力密集的過程,過去通常是透過群眾外包的方式來解決,但這需要友善的工具,以方便大量參與者幫忙,在RLDS生態系中,RLDS Creator是一個網頁工具,提供瀏覽器的通用接面,使研究人員能夠創建可控的環境,讓參與者與環境互動,像是在線上玩Atari遊戲,並且記錄和儲存所有互動資料,供之後分析和訓練代理使用。

RLDS和TensorFlow資料集(TFDS)整合,一旦RLDS資料集成為TFDS的一部分,便會在TFDS目錄中加入索引,任何研究人員便可以使用TFDS的函式存取,並且以Tensorflow或Numpy格式載入資料,目前在TFDS中相容於RLDS的資料集,包括RLUnplugged DMLab、Atari和Real World RL資料集,還有使用RLDS工具所生成的三個Robosuite資料集等。

熱門新聞

Advertisement