不靠地圖認路，AI靠強化學習看街景自行學會導航

圖片來源:

DeepMind

DeepMind表示，導航是人類和動物一項非常重要的認知能力，可以在複雜且遙遠的距離範圍中穿梭，而這項能力則是透過自我定位（Self-localisation）和目的地的認知所完成的，即是我在哪裡和我要去哪裡這2項認知。

DeepMind在這項實驗中，提出一個用Google街景圖當作第一視角的互動式導航環境，作為訓練導航AI的資料，透過獎勵的遊戲方式，訓練導航AI。

首先，DeepMind透過神經網路建立AI模型，來辨識多個城市街景圖中的像素，程式如果成功到達目的地，就會得到獎勵，DeepMind形容，就像是負責送貨但是沒有地圖的快遞員一樣，經過反覆的學習，程式可以穿梭於整個城市，並在不同的城市用相同的方式學習導航。

與過去的導航相比，DeepMind的方法是模擬了人類導航的方法，不使用既有的地圖資訊、GPS或是其他定位工具，只透過視覺感知來觀察環境，依據視覺觀察，創建出對環境的認知，並透過強化學習加強點到點的訓練，目前導航AI模型已經於倫敦、巴黎和紐約完成訓練，能夠穿梭於複雜的交叉路口、人行道、隧道等。（來源：DeepMind）

另外，DeepMind將訓練完成的導航AI架構模組化，用於轉移到其他新城市中，DeepMind將神經網路架構分成3個部分，首先是處理街景圖像並抽取圖像特徵的卷積網路，接著透過特定的神經網路，讓神經網路記住當前位置和目標位置，最後，產生導航的規則和策略。

模組化能夠將AI模型學習到的導航知識遷移到新的城市中，省去不必要的學習過程，像是沿著街道前進或是在路口轉彎等行為，因此，DeepMind建立MultiCity架構，先在多個城市中訓練模型，之後將策略網路和視覺卷積網路、特定路徑記錄下來，方便加快之後在不同城市的訓練過程。目前該項研究只限於知識上的導航，並沒有實際用於任何交通工具上，像是自駕車系統。

熱門新聞