AI趨勢周報第126期：國、臺語和客語都能讀寫！DeepQ用12年大數據訓練出國產自然語言平臺，未來將開源

開發疾管署防疫Chatbot疾管家的DeepQ團隊，近日推出NLP平臺T-BERT，用60多萬顆GPU和平行運算架構來加速開發，學習時間6小時就完成。

重點新聞(0327～0402)

DeepQ T-BERT 自然語言處理

國、臺語和客語都能通！DeepQ用12年新聞大數據訓練出T-BERT未來還要開源

HTC健康醫療事業部DeepQ不止打造擁有百萬用戶的抗疫機器人疾管家，近日還推出新一代自然語言處理平臺T-BERT，是團隊利用12年來國、臺語和客語新聞、線上教材、朗讀比賽等資料訓練而成，可讀、寫國臺語和客語，並將應用於Chatbot的語義分析和問答互動，像是疾管家、蘭醫生等。

該平臺由DeepQ與臺大資工系副教授廖世偉聯手開發，DeepQ資深處長鄭志偉指出，團隊在Google發表超強自然語言處理預訓練模型BERT後，就開始計畫以其Transformer架構，來打造適合臺灣本土的BERT。於是，團隊鎖定國語、臺語和客語，蒐集了數十年新聞資料，以及臺語和客語等專屬文字資料，作為訓練素材；而在訓練T-BERT模型時，團隊特別利用了64顆GPU和平行運算架構，來加速訓練，提升60倍運算時間，將學習時間縮短為6小時。目前，T-BERT已能自動分類9大類的國語新聞，如財經、國際等，準確度達93.7％。另一方面，由於臺語、客語資料庫相對較小，團隊採2階段微調方法，來提升準確度。

接下來，T-BERT將支援語音轉文字功能，就可聽懂國、臺語和客語，來進行問答。DeepQ總經理張智威也指出，未來，團隊將開源釋出T-BERT。（詳全文）

Google 公共資料集 BigQuery ML

Google發起COVID-19公共資料集計畫，研究員還可用BigQuery ML來建模不收額外費用

科技巨頭Google結合數據力和運算力來對抗武漢肺炎（COVID-19）疫情，日前宣布啟動COVID-19公共資料集計畫，來網羅目前各組織釋出的資料集，比如約翰霍普金斯大學CSSE的疫情追蹤地圖、世界銀行的全球衛生資料、開放街圖資料（OpenStreetMap）等，然後整合為一個資料庫，免費讓研究員快速查找資訊。

此外，Google也指出，研究員可直接使用自家機器學習服務BigQuery ML和資料集中的數據，來訓練機器學習模型，不須額外付費。最後，對公共資料集計畫有興趣的研究者，可自Google Cloud Console使用這些資料集，該計畫有效期至今年9月15日。（詳全文）

Uber 分散式訓練 計算函式庫

上千臺機器大規模訓練AI更輕鬆！Uber開源分散式訓練函式庫Fiber

大量的算力可讓機器學習演算法大規模擴展，也讓分散式訓練成為可能。但這種大規模分散式訓練仍有些挑戰，比如在本地端和在生產端執行程式碼，會有一大段落差，而且缺乏動態擴展方法、沒有錯誤控管和學習成本過高等。

為解決這些問題，Uber和OpenAI團隊聯手開發分散式訓練函式庫Fiber，可輕鬆執行分散式機器學習訓練，還能擴展至上百甚至上千臺機器，且不需要專用硬體或設備。Fiber提供了和Python一樣的標準多重處理（Multi-processing）API，因此容易上手；另一方面，使用者不需要部署Fiber，只要在電腦叢集上，像執行其他普通應用程式即可。

在架構上，Fiber由API層、後端層和叢集從組成，API層提供基本常用的模組，像是流程處理、管理器、佇列等。後端層負責電腦叢集上建立或終止的任務，叢集層則由不同管理器組成，可幫助Fiber管理、追蹤不同工作，降低Fiber本身所需追蹤的任務。在使用上，Fiber可支援Python 3.6版本或以上的Linux系統，也能支援Google Cloud等公有雲上的K8s。（詳全文）

Element AI 武漢肺炎 自然語言處理

加拿大AI新創免費開源NLP工具，幫研究者找出武漢肺炎關鍵文獻

加拿大AI新創Element AI日前開源一套搜索工具，可讓研究者利用自然語言，從COVID-19開放研究資料集（CORD-19）中找出關鍵資訊。進一步來說，CORD-19是美國產官學界為對抗疫情，聯合建立的開放研究資料集，號稱資訊全球最豐富，彙集了4萬4千多篇相關論文。然而，其中有許多論文尚未經過同儕評審，因此，要找出關鍵資訊，可得花上一番功夫。

為幫助研究者快速找到所需的資訊，Element AI開源自家語義搜索工具Knowledge Scout，研究者可以自然語言輸入關鍵字、片語，甚至是整個段落，搜尋引擎就能從CORD-19中，找出語義相關的資料。Element AI指出，這套語義搜索模型可以找出不同資訊間的關係，並會隨著時間來學習、改進，同時建立隱性知識庫。未來，Element AI還要將更多武漢肺炎相關資料集，納入這套工具的搜索範圍。（詳全文）

Nvidia 超級採樣技術 DLSS 2.0

Nvidia新版AI超級採樣技術DLSS 2.0亮相，玩Game也可享受4K畫質

Nvidia近日發表新版深度學習超級採樣技術DLSS 2.0，不僅能即時渲染畫面，還能達到超解析度等級。這是因為，DLSS 2.0可渲染更少像素，再以AI產生清晰、高解析度的影像。

相較於DLSS 1.0，DLSS 2.0採用全新模型，先以非特定遊戲內容來訓練跨遊戲的通用網路，再於遊戲執行時，取得其他訓練資料，產出品質更高的畫面。此外，DLSS 2.0執行AI模型的速度，是前一代的兩倍，大幅提高每秒幀數（FPS）。而DLSS 2.0提供品質、平衡和效能三種模式，其中，效能模式可提高渲染影像4倍解析度，等於可從1080p轉換為4K解析度。（詳全文）

Google 遊戲伺服器託管 Kubernetes

Google推出遊戲伺服器託管服務，讓遊戲開發商用K8s管理全球遊戲伺服器機群

Google發表雲端遊戲伺服器服務Game Servers測試版，是一款K8s遊戲伺服器託管平臺Agones的服務，可讓企業簡單管理全球多叢集遊戲伺服器機群，提供了自動縮放排程規畫，也可用來進行A/B或金絲雀測試。

3年前，Google與法國知名遊戲開發業者Ubisoft打造Agones平臺，用戶可直接在K8s上託管、執行和擴展專有的遊戲伺服器，並管理遊戲伺服器的生命周期。現在，Agones現有用戶，只要使用Game Servers API在Agones叢集中註冊，就能加入託管服務。Google指出，該服務可讓用戶簡單調度資源，比如遊戲舉辦特別活動時，可按日期事先安排額外容量，來應付爆量等。（詳全文）

MetNet 天氣預測 降雨率

快狠準！MetNet模型精準告訴你未來8小時降雨率

Google近日發表了神經天氣模型MetNet，可精準預測未來8小時降雨率。MetNet是一款深度神經網路（DNN），能以每2分鐘為區間來預測，解析度可達1公里，表現還比起美國最先進的物理模擬模型好，幾秒鐘就能完成計算，比原本1小時快上好幾倍。

有別於傳統物理模擬，Google開發的天氣預報方法，是以深度神經網路來預測，可利用TPU或GPU等資源來執行平行運算，來找出資料模式。MetNet可自動取得雷達感測系統（MRMS）和環境觀測衛星系統（GOES）的降雨預測值，作為模型輸入值，而且不需人工註釋。然後，模型會產生機率分佈，團隊可用來判斷各區域的降雨機率。（詳全文）

呼吸音 肺炎 聽診系統

時時把關！AI隔空讓醫生了解患者心音

自疫情爆發以來，許多醫生穿上隔離衣，卻難以透過聽診器檢查病人心跳。臺灣新創聿信醫療開發的AI連續輔助聽診系統，正好可解決這個問題。這套系統包含貼在病人胸口、僅13克的微型聽診器和貼片，以及一支可執行AI的手機，可不間斷檢測呼吸聲，隨時偵測肺臟與不同肺葉的變化，並視覺化呈現，來告訴醫護人員病人動態。

這套AI模型由過去臨床測試紀錄的資料訓練而成，包括1,800人次、8,000多小時的呼吸聲音資料，其中30萬筆資料也已完成標註。該系統目前於臺大醫院、亞東醫院測試，能正確檢測呼吸率、氣喘音、痰音、囉音等肺部異常音。除了肺炎患者，連續呼吸監測還可應用於非插管的麻醉手術，以降低意外發生。（詳全文）

圖片來源／TensorFlow、Sam's Club、微軟

AI趨勢近期新聞

1. 華為開源專門打造AI App的深度學習框架MindSpore

2. Nokia 5G AVA認知服務平臺將為電信商推出AI服務

3. Google發表語義反應器Semantic Reactor，來強化自然語言理解能力

4. 必勝客靠AI追蹤顧客瀏覽軌跡，挑出猶豫客及時發送限時折價券搶訂單

資料來源：iThome整理，2020年4月

重點新聞(0327～0402)

熱門新聞