AI趨勢周報第86期：微軟發表文字轉語音新成果，只要少數樣本就能訓練出準確度99.84％的模型

微軟發表一款文字轉語音AI，利用非監督式學習和總共20分鐘長的200個音頻樣本及其文字檔，就能開發出準確度達99.84％的模型。

重點新聞(0524～0530)

微軟 語音辨識 非監督式學習

微軟發表新文字轉語音技術，只要200個樣本就能訓練出準確度99.84％的模型

微軟日前發表一款文字轉語音AI，利用非監督式學習和200個音頻樣本（總共約20分鐘長）及其文字檔，就能開發出準確度高達99.84％的文字轉語音模型。

研究員表示，這項研究的關鍵在於採用了Transformer類神經網路架構；Transformer的特別之處在於其注意力（Attention），能讓每個輸出值與每個輸入值相連，而且能動態調整權重。另一方面，研究員使用了開源的LJSpeech資料集，隨機取其中的200個音頻與相應的文字檔作為訓練資料集，並採用去噪自動編譯器來重建受損的音頻和文字檔。研究員表示，利用這小型語料庫打造出的AI，其測試時的表現比另外3個AI基準模型還要好，準確度可達99.84％，儘管生成的語音仍帶有些許的機器腔。（詳全文）

三星 3D建模 對抗生成網路

不必3D建模，三星的AI可以直接讓圖像「動」起來

位於莫斯科分部的三星AI中心近日發表一項研究成果，透過自家設計的模型，只需幾張臉部表情的影像，就能讓靜態的人物肖像做出表情或開口說話，而且不必依賴3D建模等傳統方法。

在這項研究中，三星團隊首先以VoxCeleb2影片資料集來進行元訓練，再利用3套類神經網路來打造這個系統，包括負責將幀映射到向量的嵌入式網路、負責將臉部特徵映射到合成影片的生成器網路，以及評估生成影像真實性的鑑別器網路。研究員也以瑪麗蓮夢露、愛因斯坦和蒙娜麗莎等著名人物肖像來實驗，因此，現在大家可以看到照片中的瑪麗蓮夢露或愛因斯坦開口說話了，甚至是在畫作中的蒙娜麗莎也有不同的表情，而且研究人員在蒙娜麗莎身上套用了來自3個不同人的模型，創造出3位個性迥異的蒙娜麗莎。（詳全文）

視覺模型 臉書 深度學習框架

臉書開源用於視覺和語言模型的深度學習框架

臉書最近開源釋出能支援視覺和語言領域的深度學習框架Pythia。Pythia建立於臉書自家的開源框架PyTorch上，其模組化和隨插即用的設計，方便研究人員能快速建置、複製和檢測AI模型。Pythia框架的功能包括參考工具，能顯示之前模型的基準測試結果，並快速評估新模型的效能。

Pythia框架是為視覺和語言任務設計，像是與視覺資料相關的回答問題模型，以及自動為影像產生標題的模型。此外，該框架也支援分散訓練和多種資料集，還能自訂損失函數、指標、排程和優化器。（詳全文）

KCL Nvidia AI醫療

倫敦國王學院聯手Nvidia，要打造醫療AI平臺來改善英國醫療體系的影像判讀流程

倫敦國王學院（KCL）聯手Nvidia，要打造一款醫療AI平臺，來簡化、加速英國國家醫療體系（NHS）專科醫生判讀醫療影像的流程。該專案為KCL長期計畫的一部份，旨在改善NHS心臟科、神經科和腫瘤科等12個領域的臨床流程，以及病患照護等層面。

目前，KCL正部署算力為2 petaflops的Nvidia DGX-2超級電腦，來完成該專案的第一階段，之後將利用Nvidia Clara AI工具套件和第三方類神經網路框架（如NiftyNet），來開發影像判讀系統。另一方面，KCL研究員和Nvidia也將與英國數家NHS主要醫院合作，來整合技術開發與臨床應用，也方便未來快速部署到其他醫療機構。為保障資料隱私，此次專案將採聯合學習（Federated Learning，也稱為分散式機器學習）來開發演算法，讓各機構的資料不必向外傳輸，透過醫院內部的資料即可自行開發AI演算法。而這些各家開發的模型，除了能精準反映該區域的病患特性，NHS也可整合這些模型，來發展為層面更廣的模型。（詳全文）

JINS AI店員 機器學習

不怕選錯！AI店員幫你挑眼鏡

日本平價眼鏡連鎖品牌JINS日前宣布引進JINS Brain AI智慧判讀服務至臺灣分店，來幫臺灣消費者「挑眼鏡」。該服務由日本總部的JINS Brain實驗室開發，他們利用半年的時間，讓3千位不同年齡的男女店員來看30多萬張不同臉型配戴不同框型眼鏡的照片，並評斷每張照片的配戴適合度，再利用這些資料來訓練機器學習模型，開發出一套JINS Brain AI智慧判讀系統。

現在，消費者只要對著店內iPad螢幕試戴眼鏡，系統中的AI男店員或AI女店員就會在幾秒內告知適合度百分比，幫助消費者挑選合適的眼鏡。目前，JINS臺灣分店已有4家開始提供免費的Brain AI智慧判讀服務。（詳全文）

MIT RoboRaise 機器人

不需下指令，MIT打造出能與人類合作抬起物體的機器人

麻省理工學院電腦科學暨AI實驗室（CSAIL）最近發表能與人類合作抬起物體的機器人，該機器人系統RoboRaise是利用肌電圖檢查（EMG）感測器，來監控人類的二頭肌和三頭肌運動，演算法會不斷偵測人類手臂高度的變動和上下的手勢，來調整自身的動作，與人類一同合作抬起物體。

MIT的研究團隊使用RoboRaise系統執行一系列的任務，包括撿起物體、組裝模擬的飛機零件等。在實驗過程中，人類可透過手臂動作（如抬舉、伸縮）來控制機器手臂的活動，而機器手臂的活動範圍可精準至數英吋；此外，機器人還可正確回應人類70%的手勢。研究團隊希望，未來在系統中加入更多肌肉或不同類型的感測器，增加機器人的活動自由度，最終目標是要機器人能夠完成更複雜的任務。（詳全文）

微軟 對話機器人 SDK

微軟更新對話機器人開發框架SDK，提供適應性對話框靈活解決問答

微軟更新了其用於建立文字對話機器人的開發工具Bot Framework SDK，幫助企業建立能確實解決用戶問題的機器人與虛擬助理，提升客服體驗。Bot Framework SDK加入了適應性對話框，能讓開發者根據情境和事件，來動態更新對話流程。開發者可自定義行動（Action），而行動可包含一系列的步驟，這些步驟是由對話中發生的事件結果定義；這樣的設計對於切換或中斷對話內容時，格外好用。

Bot Framework SDK還提供了模組化對話功能，微軟稱之為技能（Skill）。開發者可將拼湊不同技能，來形成完整的對話體驗，而技能包括了跨應用程式的語言模型、對話框以及卡片，目前預覽版本的技能則有電子郵件、日曆和興趣點。中央對話機器人可以由企業各團隊維護的子機器人組合而成。（詳全文）

耐能 AI晶片 CNN

耐能新款低功耗AI晶片KL520能支援多種CNN模型，今年第四季出貨搶攻邊緣運算市場

耐能（Kneron）日前推出一款AI晶片「KL520」，主打低功耗、高效能，結合自家研發的可重組式AI神經網路技術（RANN）與模型壓縮技術，並搭載自家設計的神經網路處理器（NPU），來支援多種機器學習框架與CNN模型。耐能研發的RANN，可以根據不同CNN模型的運算結構進行重組，來減少運算複雜度、提高效能。另一方面，KL520可支援主流框架和第三方演算法，比如TensorFlow、Keras、Caffe，也支援運用上述框架所開發的CNN模型，如ResNet、Yolo、MobileNet等，也能客製化支援少見的模型。

KL520還具模型壓縮技術，透過遷移式學習、量化、剪枝、蒸餾等四種方式，在模型精度的損失小於0.5%的情況下，將模型中較不影響表現的小網路拿掉，來壓縮模型。Kneron目前已落地應用於手機、IoT、家居、安防等場景，預計今年Q4放量出貨。（詳全文）

攝影／翁芊儒圖片來源／三星、JINS、MIT

AI趨勢近期新聞

1. 美國空軍和MIT推出AI加速器計畫，聚焦於國家級安全挑戰

2. Google打造肺癌預測模型，表現超越人類放射科醫師

3. 為突破AI能力限制，臉書要教機器人在真實世界中自主學習

4. IBM要讓Watson協助農夫導入智慧農業

資料來源：iThome整理，2019年5月

重點新聞(0524～0530)

熱門新聞