AI趨勢周報第156期：參數破兆！Google發表新NLP預訓練模型Switch Transformer

Google Brain發表一項研究，經稀疏技術來改善多專家模型（MoE），將原Transformer中的密集前饋神經網路（FFN）改為Switch FFN層。

圖片來源:

Google Brain

重點新聞(0115～0121)

NLP模型 Switch Transformer 參數

參數破兆！Google發表NLP預訓練模型新作，號稱成本不變但更快速

Google Brain近日發表一款自然語言處理（NLP）預訓練模型Switch Transformer，具1.6兆參數，正式揭開NLP模型參數上兆等級的序幕。近年來，NLP預訓練模型參數量不斷飆升，去年OpenAI發表超大通用NLP模型GPT-3，把參數帶到千億等級，而現在，在這流行擁腫的趨勢上，Google新模型直接躍升兆等級。不過Google稱，訓練Switch Transformer的硬體成本並未飆升，而且訓練時間更短。

這是因為，Google用稀疏技術簡化了多專家演算法（Mixture of Experts，MoE），來有效整合資料、模型和不同專家演算法的平行處理。與Google先前發布的大型NLP模型T5-XXL相比，這個新方法在成本可控的同時，還能將Switch Transformer的訓練時間縮短為四分之一。

Google進一步說明，現有許多簡化的深度學習架構，準確率比複雜演算法還要高，但這些簡化架構往往需要巨量資料集、更大量的參數和更高的運算成本。再加上，這些模型常重複使用同樣的參數，來分析所有輸入值，而MoE模型則使用不同參數，改善效率問題。Google看上這個優點，採MoE來訓練大型語言模型，還同時搭配稀疏分析方法，來進一步簡化MoE模型，突破MoE模型難以擴展的瓶頸。在Switch Transformer的編碼器中，團隊將原本Transformer架構的密集前饋神經網路（FFN）拿掉，改為稀疏Switch FFN層，可獨立處理序列中的Tokens。

團隊表示，這個模型應用於大規模訓練時，能確保參數隨裝置數增加而增加的同時，在每個裝置上仍保持可控的記憶體和運算歷史紀錄。而且，團隊發現，用32個TPU核心和C4資料集來預訓練Swtich Transformer，不僅所需的運算成本低於其他MoE模型，準確率還更高。（詳全文）

FDA AI醫材軟體 SaMD

2年醞釀，美FDA終於發布AI醫材軟體法規行動計畫

經過2年研究，美國食品藥物管理局（FDA）日前終於發布第一套AI/ML醫材軟體（Software as a Medical Device，SaMD）法規行動計畫，要助政府進一步監管AI軟體醫材的使用。

該計畫點出了FDA未來將採取的5大方向，首先是進一步發展現有法規框架，比如針對機器學習軟體的長期學習時間，制定出變化控制計畫，並發布指引草案。再來是支援發展良好的機器學習實作方法，來評估、改善機器學習演算法。第三則是推動以病人為中心的實作方法，包括讓使用者了解裝置數據收集的用途。第四點是發展用來評估和改善機器學習演算法的方法，最後則是推動真實世界的AI SaMD效能監控試點計畫。（詳全文）

NAS 類神經網路架構 德州大學

不必訓練就能找到最佳架構！德州大學發表無須訓練的NAS方法

德州大學奧斯汀分校發表一項新優化方法TE-NAS，號稱不需訓練就能找出最佳的類神經網路架構，也就是無須訓練的NAS方法，來降低建模所需的時間和成本。團隊指出，目前市面上有無數種類神經網路架構和各種變形，供AI開發者使用，但開發者往往要為特定任務，來手動找出最合適的類神經網路架構。但手動尋找需耗費大量時間來不斷試錯，為加速這個過程，出現了類神經網路架構搜尋（NAS）方法，可自動找出表現最好的類神經網路。

但NAS不是萬靈丹，它需要大把時間來訓練超網，或密集評估各種架構。因此，德州大學團隊研發TE-NAS，來解決問題。進一步來說，該方法結合了兩個指標，包括神經正切內核（NHK）條件和輸入空間的線性區域數量，再加上一套新穎的剪枝方法，來取得兩者的時間平衡。經實驗，TE-NAS以ImageNet上使用DARTS找出最佳類神經網路，只需要4個GPU小時，且保持不錯的準確率。該研究已獲AI頂級年會ICRL 2021接受，目前開放同儕評審，而團隊也已將程式碼開源於GitHub。（詳全文）

AI照護 韓國陪伴

韓國政府將擴大西大區AI照護者服務名額

韓國政府將自今年2月起，擴大AI照護者服務（AI Caregiver Service）名額，從200名擴大至450名，來照顧當地弱勢民眾。該服務所定單親家庭、年長者、中年和身障團體，透過AI智慧喇叭來安撫情緒，包括播報新聞、天氣、音樂，並與居民聊天。要是AI智慧喇叭偵測到異常跡象，比如在一段時間內通話中斷，政府辦公室的照護管理員就會致電確認，並親自拜訪。此外，遇到緊急情況時，該AI也會啟動緊急救護需求，同時給予居民所需的陪伴感受。韓國政府將投入2.75億韓元來推動這項政策。（詳全文）

量子電腦 藥物開發 分子動力學模擬

Google量子電腦部門取得首家藥廠客戶

德國藥廠百靈佳殷格翰（Boehringer Ingelheim）聯手Google量子AI部門，要透過三年合作，用量子運算來研究疾病和新藥開發。百靈佳殷格翰也是Google量子運算的第一家藥廠客戶。

雙方將藉Google的量子電腦與演算法、百靈佳殷格翰的電腦輔助藥學設計和電腦模擬建模（in silico modeling）經驗，來研究和實作藥學研發的尖端使用情境，特別是分子動力學模擬。百靈佳殷格翰近幾年也推動多項數位轉型計畫，以AI和資料科學來加強對疾病、生物標記、驅動因子以及數位療法的了解。該公司成立的量子實驗室以及旗下創新事業群、IT等部門，也將與Google共同主持這次研究。（詳全文）

微軟 語音資料 語音轉錄

語音資料收集政策更透明，微軟讓用戶一窺資料對AI產品的影響

微軟更新語音資料收集政策，在用戶的同意下，來收集用戶使用語音辨識技術服務的錄音，供開發人員在研發產品時進行人工審閱，用戶也可查看所有被收集的語音片段，以及語音片段對AI系統所做的貢獻。

在新的語音片段設定中，用戶需要明確同意微軟收集語音資料，微軟才會將用戶的語音資料，用在開發AI產品中。微軟及其承包商只會在用戶許可的情況，聆聽用戶貢獻的語音，對其他用戶來說，微軟仍會繼續存取用戶語音活動的相關資料，如用戶與語音辨識系統互動時，自動產生的轉錄文字。

微軟從2020年10月30日之後，就停止儲存語音辨識技術處理的語音片段，並在接下來幾個月內，會在微軟的翻譯器、SwiftKey、Windows、Cortana、HoloLens、Mixed Reality和Skype語音翻譯等產品，推出新的語音片段配置。當用戶同意讓微軟員工及其承包商，聽取語音記錄來改善AI技術，微軟會保留所有語音資料兩年，如果這些語音片段還進一步供人工轉錄使用，則可能會保留兩年以上。（詳全文）

穿戴裝置 Apple Watch 認知退化

龍頭藥廠聯手蘋果，要用穿戴裝置揪出失智症徵兆

失智症藥物龍頭大廠百健（Biogen）聯手蘋果，要以Apple Watch、iPhone等穿戴裝置，來探討這些裝置偵測認知衰退的可能性，包括失智症。

進一步來說，Apple Watch具有加速度計、陀螺儀等感測器，可偵測配戴者手部動作，而iPhone也有醫療大規模研究用的Research App，內建供受試者填寫問卷等功能。這項研究將於今年展開，研究團隊將招募年輕成人至長者，以及不同認知表現的自願者參加，展開一系列認知表現的研究。這項研究將發展數位生物標記，來長期監控使用者認知表現，以在早期發現輕微認知障礙（MCI）徵兆。（詳全文）

圖片來源／Google Brain、FDA、微軟

AI趨勢近期新聞

1. AI頂級年會ICLR 2021公布860篇獲選論文，開放同儕評審

2. 德國政府聯手SAP共同創辦人，砸上億歐元建AI重點樞紐

資料來源：iThome整理，2021年1月

重點新聞(0115～0121)

熱門新聞