AI趨勢周報第155期：不求獎勵的RL代理就更像人類嗎？Google Brain告訴你

對增強學習（RL）代理來說，獎勵機制是學習的重要手段，但設計獎勵機制往往耗時耗錢，也容易發生人為錯誤。於是，Google Brain聯手多倫多大學和Vector研究院，以3種常見的人類學習機制vs傳統RL的任務獎勵機制，來分析AI是否更接近人類。

圖片來源:

Danijar Hafner

重點新聞(0108～0114)

增強學習 獎勵機制 Google Brain

不求獎勵的RL代理就更像人類嗎？Google Brain告訴你

對增強學習（RL）代理來說，獎勵機制是學習的重要手段，用來鼓勵代理探索環境、從嘗試錯誤中找出最佳解法。增強學習的著名案例，包括打敗人類圍棋冠軍的AlphaGo、自學三種棋類且達超人等級的AlphaZero、破解50年蛋白質結構預測難題的AlphaFold，以及近日登上Nature期刊、靠自學精通多種遊戲的MuZero。通常，RL被視為邁向通用AI的關鍵。

但要設計RL代理的任務獎勵機制，往往耗時、耗錢，也容易發生人為錯誤。因此，Google Brain聯手多倫多大學和Vector研究院，透過評估3種常見的學習動機機制，來探討AI是否能像人類嬰兒般，只靠內在目標（Intrinsic objective）就能探索世界、找出最佳解法。

這3種機制包含輸入熵（Input entropy）、資訊獲取（Information gain）、賦權（Empowerment），其中，輸入熵是鼓勵RL代理接收不常見、稀有的輸入值，而資訊獲取是用來鼓勵代理找出環境規則，賦權則鼓勵RL代理，盡可能運用自己對環境或輸入值的影響。為評估，團隊先建立含不同環境和行為的資料集，再回頭計算RL代理的目標值。團隊以1億幀Atari遊戲環境畫面來訓練7種代理（如隨機、無指令、近端策略優化（PPO）、隨機網路蒸餾（RND）等），並分為有獎勵和無獎勵兩組，而在3D遊戲Minecraft中，則用了1,200萬幀環境影像來訓練。

團隊發現，在所有的測試中，3種機制與人類行為的相關性，高於與任務獎勵機制的相關性。這說明，如果要讓AI更像人類，就得採取接近人類的學習方法。團隊同時也指明，目前關於AI可學習的人類行為資料過少，希望能再增加。該研究的資料集和程式碼，已於共同作者Danijar Hafner的網站上釋出。（詳全文）

通用AI 自然語言理解 DeBERTa

離通用AI更近了！微軟新一代自然語言理解模型超過人類表現

微軟最近揭露一套改良的大型自然語言預訓練模型DeBERTa，一樣採Transformer架構，具15億個參數、48個Transformer層，更在自然語言理解基準測試SuperGLUE上超越人類的89.9分，以90.3分拿下第一名。

自Google兩年多前發布Transformer超大自然語言預訓練模型BERT以來，就陸續出現各種變形，比如TinyBERT、DistilBERT、ALBERT，以及微軟的RoBERTa、UniLM。這次，微軟改良BERT和RoBERTa，將改良版命名為DeBERTa。DeBERTa有三大新特點，包括分解式注意力機制（Disentangled attention）、強化的遮罩解碼器（Mask decoder），還有虛擬對抗訓練的微調方法。

有別於BERT只用單一個向量來表示一個字，微軟的分解式注意力機制利用兩個向量來代表一個字，這兩個向量分別代表字的內容與位置。而強化的遮罩解碼器，來用來表達一個字的絕對位置，最後，用於微調的虛擬對抗訓練方法，則能加強模型泛化能力。微軟指出，DeBERTa超越人類的表現，代表離通用AI又更進一步了。未來，微軟除了釋出具15億參數的DeBERTa及其程式碼，還會將模型整合到微軟圖靈自然語言表達模型的下一個版本Turing NLRv4中，來支援微軟的各種產品。（詳全文）

AI監管 法規制定 Open Loop

如何監管AI？臉書發起Open Loop計畫，號召全球決策者和科技公司加入

臉書日前發起Open Loop計畫，要號召世界各國的政策制定者與科技公司加入，來協助制訂AI科技應用的策略。臉書表示，AI技術很難讓人全然了解，它對社會的影響也不易掌握，因此需要一個國際組織來研議、提出相關政策的建議。

顧名思義，Open Loop計畫是要為政策制定者與政策執行者，建立一個協作、穩健的回饋迴路（Loop）。也就是說，Open Loop的目標，是要在新法律規範頒布前，先設計原型並進行模擬測試，來讓利害關係人了解現實世界可能發生的狀況。臉書強調，政策制定者可與臉書在內的科技公司協作，建立實用的治理框架、討論出最佳的AI法律規範。（詳全文）

微軟 醫療對話機器人 Azure Health Bot

微軟把AI醫療對話機器人服務搬上Azure雲端了！

微軟近日釋出Azure版的醫療聊天機器人服務Azure Healthcare Bot，用戶可在Azure雲端使用Healthcare Bot服務，而原有的Healthcare Bot用戶，也可將服務直接搬上雲。

在疫情期間，微軟Healthcare Bot獲美國疾管署等醫療機構使用，來回答COVID-19相關問題。現在，微軟宣布將Healthcare Bot搬遷到Azure雲端服務上，利用雲端基礎設施來強化Healthcare Bot能力，比如讓開發人員以內建的醫療資料庫和自然語言理解能力，來大規模建立、部署AI對話系統。Azure Health Bot目前在美東與西歐地區上線，未來還會在8個地區上線。（詳全文）

JupyterLab 3.0 視覺化除錯 擴充

JupyterLab新版解決擴充套件的重置痛點

熱門資料科學工具JupyterLab日前推出第3版，更新了預設的視覺化除錯器，並加入目錄擴充套件，讓使用者查看內容更容易，此外還提供發布擴充套件的新方法。

Jupyter Notebook提供網頁互動式運算環境，而JupyterLab是Jupyter Notebook的進階版，是Jupyter專案的新一代UI，提供文字編輯器、瀏覽器和終端等功能。JupyterLab 3.0預設提供視覺化除錯器，讓開發者可在筆記本單元和原始碼檔案下中斷點，還能檢視變數、瀏覽回呼堆疊等各種功能。此外，新版還包括目錄擴充套件，用戶可在JupyterLab中，使用如Word文件般的目錄功能。最後，JupyterLab擴充套件能以預建置的擴充套件發布，這項更新是要解決過去用戶，在使用新的擴充套件，就需要重新建置JupyterLab或是安裝Node.js的問題。（詳全文）

程式語言 Python TIOBE

4度奪冠！Python拿下TIOBE年度程式語言獎

TIOBE近日發布2021年1月的熱門程式語言排行榜，執行長Paul Jansen指出，Python在2020年的TIOBE Index成長2.01％，是所有程式語言之冠，拿下TIOBE年度程式語言獎第一名。其他得獎的語言包括C、Groovy和R，成長分別為1.66％、1.23％和1.10％。

Python近年表現亮眼，從早期作為Perl的競爭對手，被系統管理員用來編寫腳本，到如今已成為資料科學和機器學習領域中最受歡迎的語言。Python這幾年持續挑戰Java第2名的位置，Paul Jansen表示，Python很快就會取代Java，且會坐穩第2的寶座。他分析，開發者採用Python的兩大原因，無非是容易學習且高生產率，而這兩特質對於程式設計供不應求的現況非常重要。（詳全文）

圖片來源／Danijar Hafner、微軟、JupyterLab

AI趨勢近期新聞

1. AI Labs招募新血！聚焦醫療影像、基因、無人機和NLP等AI領域

2. 國際新創Ninu在CES亮相AI香水App，可自行設計專屬香水

3. 拿捏廣告預算好難？Appier用AI自動分配熱門平臺廣告預算

資料來源：iThome整理，2021年1月

重點新聞(0108～0114)

熱門新聞