Google讓人工智慧具選擇性注意力，提升其泛化能力

Google研究人員在GECCO 2020會議上，發表具有自注意力（Self-attention）瓶頸的人工智慧代理AttentionAgent，研究人員運用不注意視盲（Inattentional Blindness），讓AttentionAgent具有選擇性注意力，能夠忽略不重要的細節，相較於傳統方法，代理泛化學習參數少了1,000倍，可以更好地處理複雜的電腦視覺任務。

不注意視盲是一種人類心理現象，由於選擇性注意力，因此人們會漏看視野裡部分東西，Google提到，這種選擇性注意機制，讓人們可以專注於重要的事物上，而不分心於無關緊要的細節，他們相信這種機制可以讓人們濃縮感官資訊，成為一種夠簡潔的形式，用於未來的決策上。

盡管選擇性注意力看起來像是種限制，但Google認為，從自然界觀察到的這種瓶頸，可用於改善機器學習設計，透過模仿讓人工智慧學習，生物能夠高效能解決任務的方法。過去的深度增強學習，都讓人工智慧代理能夠存取完整的視覺輸入，而Google現在以注意力限制，來減少人工智慧代理存取視覺輸入，以提高系統效能，不只可以大幅減少需要的參數，而且因為代理看不見部分視覺輸入，因此剛好能避掉那些可能造成混淆的內容，而且查看代理把注意力集中在什麼部分，還可以為其決策提供視覺的可解釋性。

過去也有類似的研究，利用稀疏性來限制輸入內容，而AttentionAgent則是從人類的不注意視盲獲得靈感，當大腦付出努力參與任務時，大部分的注意力會集中在與任務相關的元素上，暫時對其他訊號視而不見。為了要實現這件事，Google將輸入的圖像分割成幾個小區塊，然後修改自注意力架構來模擬小區塊間的投票，選出重要的子集，AttentionAgent會忽略不重要的部分，僅利用重要區塊做決策。

關鍵要素除了視覺輸入的擷取之外，關聯這些要素隨時間變化的能力也很重要，像是棒球比賽中的打者，必須利用視覺訊號來連續追蹤棒球的位置，以預測能夠打擊到球的位置，AttentionAgent則會利用長短期記憶（LSTM）模型，從重要的視覺區塊中擷取資訊，並在每個時步決定一個行動，LSTM會追蹤輸入序列變化，並利用這項資訊追蹤關鍵要素在不同時間的演變。

重要區塊的視覺化，可讓研究人員知道人工智慧下決策的方法，並說明大多數的選擇，是合理且符合人類直覺，可做為系統開發階段，好用的分析和除錯工具，另外，Google提到，人工智慧代理學會忽略非關核心任務的資訊，因此經修改還可以推廣應用到小環境任務。

Google的這項研究，證明僅讓人工智慧代理存取重要的區塊，無視場景其餘的部分，可以提升代理泛化（Generalize），用於解決其他任務能力，像是在VizDoom TakeCover環境接受訓練的人工智慧代理，也能夠在其他牆壁較高、地板貼圖不同，或是更多令人分心標誌的環境下生存。

這樣的成果可以被應用在自動駕駛上，應用晴天資料集學習駕駛的代理，也能夠將駕駛技能轉移到晚上或是下雨天，AttentionAgent不僅能夠解決CarRacing-v0任務，在其他惡劣環境中，也能達到相近的效能，泛化需要的參數比慣用的方法少1,000倍。

不過，即便AttentionAgent能夠適應環境修改，仍有其限制，像是原本周圍都是綠地的賽車背景，一旦換成YouTube影片便會失效，又或是更換成均勻的雜訊時，人工智慧代理的注意力模組便會失效，Google提到，他們用於選擇重要視覺區塊的方法仍不夠強健，不足以應付更複雜的任務，因此他們接下來會發展，能從視覺輸入擷取有意義特徵的方法。

熱門新聞