AI趨勢周報第106期：自然語言生成新成就！微軟UniLM更勝BERT達SOTA等級

圖片來源:

微軟研究院

重點新聞(1018～1024 )

NLP 微軟 UniLM

自然語言生成新成就！微軟UniLM更勝BERT達SOTA等級

微軟研究院日前在GitHub上釋出一套自然語言處理（NLP）預訓練模型UniLM，它在NLP基準測試如SQuAD 2.0和CoQA問答任務方面皆優於BERT，而且在5項自然語言生成（NLG）資料集上達到SOTA等級，包括摘要生成、問題生成和回答問題等。

研究團隊指出，目前NLP預訓練技術已有許多新進展，但Google BERT透過左右雙向來預測詞意的方法，難以勝任NLG任務。因此，團隊提出一套預訓練模型UniLM，可完成單向、雙向和序列至序列（Sequence-to-sequence）預測，並可針對自然語言理解（NLU）和NLG來微調。UniLM是一個多層類神經網路，由數個經大量文本預訓練而成的Transformer AI模型組成。團隊表示，UniLM與BERT相似，都可微調，來適應下游的多元任務。但與BERT不同，UniLM可使用不同的自我注意力遮罩來設置，以匯總不同語言模型的語境（Context）。此外，由於預訓練的統一性，Transformer網路可共享參數，讓學習到的文本特徵更加通用，來減輕單一任務過度學習（Overfitting）的狀況。（詳全文）

Nvidia Aerial OpenShift

Nvidia推出5G訊號處理SDK Aerial

看好5G和邊緣運算發展，Nvidia在剛揭幕的洛杉磯世界行動通訊大會MWC上發表可處理5G訊號的軟體開發套件Ariel，由自家邊緣運算平臺Nvidia EGX支援，可助電信業者建立完全虛擬化的5G無線接取網路（5G vRAN）。

Aerial包括了2個關鍵SDK：CUDA虛擬化網路功能（cuVNF）和CUDA基頻（cuBB），其中，cuVNF提供了優化的輸入／輸出和封包（Packet）處理功能，可直接將5G封包傳送到GPU來處理。而cuBB則提供了GPU加速的5G訊號處理工作流程，來提高吞吐量和處理效率。Aerial除了能在EGX上執行，Nvidia也與紅帽合作，讓紅帽的Kubernetes容器平臺OpenShift可管理和自動化執行Aerial 5G RAN、容器網路功能和其他邊緣運算新服務，要提供電信業者大規模部署和管理現代化基礎架構的服務。（詳全文）

Ubuntu K8s AI開發

Ubuntu 19.10版終於釋出！聚焦K8s邊緣功能、AI整合開發

歷經25周開發，開源作業系統Ubuntu 19.10版近日終於釋出，亮點包括了新增的Kubernetes邊緣功能、AI開發整合體驗，以及號稱最快速的GNOME桌面環境效能。首先，新版本對MicroK8s的限制更嚴格，來提供完全隔離、高度安全的K8s環境。MicroK8s一個較輕量的K8s，可在終端工作站或邊緣裝置執行，而新版Ubuntu可透過單一指令，在邊緣裝置部署MicroK8s的附加元件，像是Istio、Knative、CoreDNS、Prometheus和Jaeger等。

至於AI部署方面，在Ubuntu 19.10中，K8s的機器學習套件Kubeflow可作為MicroK8s的附加元件來使用，讓開發者在幾分鐘內就能建立環境、開發、測試和擴展AI模型。此外，新版搭配的GNOME 3.34桌面環境大幅提高執行速度，就算在舊硬體上執行，也能享有新性能。此外，使用者現在還可試用ZFS檔案系統支援。（詳全文）

國網中心 智慧醫療建模平臺 生醫資料庫

國網中心整合軟硬體資源與生醫資料庫，12月要推出智慧醫療建模平臺

國網中心自今年開始提供臺灣AI雲（TWCC）服務後，為降低生醫領域跨足AI應用的門檻，也著手整合各類生醫資料庫與軟體技術，結合TWCC的運算資源推出智慧醫療建模平臺，預計12月開放學研和產業界申請使用。

智慧醫療建模平臺整合了多項服務，在軟體技術部份整合了國網中心與各大醫院、學校合作的成果，包括與長庚醫院合作開發的睡眠呼吸中止症評估平臺、與臺大獸醫系的數位病理標記與分享系統等。在資料庫整合方面，國網中心建置國網生科雲LIONS，串接各類生醫研究常用資料庫的API，讓研究人員可同時查詢多種資料庫。由於智慧醫療建模平臺建立於超級電腦臺灣杉一號的雲服務上，使用者可運用LIONS的資料庫來建模、執行AI運算，再下載模型、透過網頁或App來提供服務；而國網中心也會提供常用的模型，並協助訓練模型、調整參數達到最佳化。（詳全文）

SOTA AI模型評估 Sotabench

想評測GitHub上SOTA等級模型，就來Sotabench網站

機器學習資源網站Paper with Code日前發布一個免費網站Sotabench，專門用來評估和測試GitHub上達SOTA等級的模型。Sotabench團隊已建立了8個基準測試，包括了ImageNet 影像分類、COCO Minival物件偵測、WMT2014和WMT2019英文-德文機器翻譯、WMT2014英文-法文機器翻譯、WikiText-103語言模型、SQuAD1.1 dev和SQuAD2.0 dev問答能力等。每個基準測試頁面都有一個排行榜，來總結現有模型的排名，此外還有一列清單，顯示Paper with Code上現有但未經測試的模型。

另一方面，團隊也鼓勵大家貢獻更多基準測試，貢獻者可免費使用GPU資源來進行開放的模型基準測試，並可將測試結果與研究論文結果比較，以實現可重複性。（詳全文）

Delta Lake 資料湖 Linux

開源資料湖專案Delta Lake將交由Linux基金會管理

由Apache Spark技術團隊所創立的資料科學公司Databricks宣布，旗下開源資料湖專案Delta Lake將由Linux基金會託管。Databricks 4月時開源了Delta Lake，受到廣泛的使用，為進一步擴大社群，Databricks與Linux基金會合作，透過Linux基金會的影響力來發展開源專案。

此外，Databricks也與阿里巴巴、Booz Allen Hamilton、英特爾和Starburst合作，讓Delta Lake不僅能支援Apache Spark，還能同時支援Apache Hive、Apache Nifi和Presto。接下來，Delta Lake會採取開放治理的模式，鼓勵社群參與和貢獻技術，藉由長期管理框架，建立Delta Lake社群生態系，並發展資料湖中資料儲存的開放標準，確保Delta Lake的資料保持開放且可存取。（詳全文）

Deepfake 臉書 AWS

臉書、微軟打擊Deepfake影片活動啟動，AWS加盟贊助

臉書、微軟發起Deepfake影片辨識技術創新大賽將於12月正式啟動，近日雲端大廠AWS也表態加盟並贊助運算資源給參賽隊伍。這場Deepfakes Detection Challenge比賽，旨在邀集各方好手來開發能辨識AI技術造假影片的技術。臉書和合作廠商發布數萬個包含真實未處理和利用AI產出的Deepfake影片、音訊及其他檔案，讓參賽者用這批資料集，來設計能辨識資料真偽的演算法，這些演算法會再以另一批祕密測試資料集來評估，最後再評選出最優秀的模型。

AWS也將釋出自家平臺資源來贊助這項活動。AWS S3雲端服務將代管估計超過4 petabytes的所有比賽影音資料集，未來2年也預計提供100萬美元等值的AWS點數，供參賽者開發、測試演算法。每一隊最初都能要求最少1000美元的AWS點數，表現優異的計畫之後還能申請高達1萬美元的點數。該公司將派出Amazon機器學習解決方案實驗室專家，在參賽隊伍競賽期間提供協助。（詳全文）

圖片來源／Linux、Ubuntu

AI趨勢近期新聞

1. GoShare共享機車進駐臺北，能用AI分析用戶行為來推薦用車、找停車位

2. Adobe發表新AI演算法，可修復受損照片或影片

3. Alphabet Wing推出全美首個無人機快遞服務

4. Google將更新Pixel 4人臉解鎖功能，可設定只在睜眼時解鎖

資料來源：iThome整理，2019年10月

重點新聞(1018～1024 )

熱門新聞