AI趨勢周報第114期：快又不漏字！微軟發表FastSpeech能更快產生逼真自然的語音

微軟發表FastSpeech模型，可加速仿真語音的生成，透過長度調節器來解決音素與梅爾頻譜生成的時間差。

圖片來源:

微軟

重點新聞(1213～1219)

微軟 FastSpeech 語音合成

不只快還不漏字！微軟發表FastSpeech模型能加速仿真人語音生成

微軟日前發表一套仿真人語音生成AI模型FastSpeech，要來解決神經語音合成速度緩慢的困境。微軟指出，現今仿真人的神經語音合成技術，包括Google Assistant、Alexa和AWS Polly所採用的技術，多半是先根據文本產生一個梅爾頻譜，再用聲碼器（Vocoder）來合成語音，但它們都有同樣的缺點，也就是要產生梅爾頻譜的推論速度緩慢，而且合成的語音容易重複或跳過某些單字。

為解決這些問題，微軟聯合浙江大學共同開發出FastSpeech，透過其中的長度調節器，來調整梅爾頻譜和音素（Phonemes）序列的時間長度。進一步來說，音素通常比梅爾頻譜要短，一個音素會對應到好幾個梅爾頻譜，而調節器可拉長音素的時間，讓兩者一樣，使語音產生的速度恰到好處。而調節器之所以能準確調整時間長度，還有賴於FastSpeech的長度預測器。它由1個線性層和2個卷積層組成，專門來預測音素應持續多久。

微軟指出，就實驗成果看來，FastSpeech不僅在合成語音的速度上，比現有的基準模型快上38倍，而且產生梅爾頻譜的速度，更快上270倍。此外，它還可以減少語音合成常見的錯誤，像是跳過單字，而且還能進行速度和斷字微調。未來，微軟計畫將FastSpeech與聲碼器整合為同一個模型，要打造端到端文字轉語音服務。（詳全文）

Google 自然語言 AutoML

Google正式推出AutoML Natural Language，新增PDF判讀功能

經過幾個月測試，Google日前終於正式發布AutoML Natural Language，全球用戶皆可使用。這次GA版除了有常見的機器學習分類、情緒分析、命名實體識別等功能，還新增了PDF檔的語意判讀功能，可讀取PDF原生檔案和PDF掃描檔。

此外，為了強化複雜的語意理解應用，比如理解法律文件或是大型複雜的文件分類，AutoML Natural Language現可支援5,000個分類標籤，也能支援更大量的訓練資料，數量最高可達1百萬筆文件，單一檔案則可達10MB。另一方面，AutoML也加強了命名實體識別功能，可分析其他上下文資訊，比如文件的空間結構、版面配置資訊等，來加強模型訓練和預測結果，特別是發票、收據、履歷和合約等類文件的辨識。（詳全文）

Nvidia 深度學習 TensorRT

鎖定即時推論需求，Nvidia發表新一代深度學習推論軟體TensorRT 7

瞄準即時AI推論需求，Nvidia在自家技術年會GCT China上揭露最新一代高效能深度學習推論軟體開發套件（SDK）TensorRT 7，大幅優化了編譯器，來改善即時推論的工作負載。

Nvidia表示，這個優化的編譯器，可自動加速迴歸和Transformer模型的運算，像是熱門的語音合成模型WaveRNN、Google的Tacotron 2和BERT等，而且與傳統處理器相比，速度可快上10倍以上，延遲低於300毫秒。TensorRT 7將免費開放給Nvidia開發者專案會員，而最新的外掛、分析器、樣本等都會發布在TensorRT的GitHub儲存庫。（詳全文）

紐約大學 FastMRI 資料集

臉書和紐約大學聯手釋出超大型腦部MRI資料集

臉書與紐約大學醫學院合作的FastMRI研究計畫，日前釋出最新的MRI資料集，而且一併開放基準模型和新增的研究論文，來推動AI醫療影像的研究發展。這次釋出的MRI資料集，包含了6,970個完全去識別化的腦部MRI病例k-space原始檔，以及10,000多個病例，裡面共有370,000張DICOM格式的圖像切片。這個資料集，可說是目前最大的k-space格式腦部MRI公開資料集。

k-space格式資料是MRI掃描過程產生的，通常在合成圖像後就不再使用，但臉書指出，k-space格式資料可用來訓練AI模型、驗證效能等。在資料隱私上，臉書強調，該資料集經紐約大學Langone Health委員會審查，完全不含可用來識別病患身份的元資料與內容。目前，研究人員可在NYU Langone Health的FastMRI網站，下載新釋出的大腦MRI資料集、論文和基準模型。（詳全文）

萊迪思 FPGA 動態調整

萊迪思28奈米全新嵌入式FPGA產品亮相，加入動態調整設計對應不同場景

美國老牌FPGA廠商萊迪思（Lattice）近日推出首款28奈米嵌入式FPGA產品CrossLink-NX，不只尺寸更小、更省電，還加入AI處理執行能力，並具動態調整設計的能力。CrossLink-NX是萊迪思第一款採28奈米Lattice Nexus平臺開發推出的FPGA產品。

由於採用28奈米FD-SOI新製程技術開發，在FPGA設計上，使用彈性便大幅提升，可對應不同應用場景，動態調整邏輯電路，來降低硬體成本。例如，假設要在沒有加裝電池的IoT裝置上使用，可選擇低功耗的FPGA模式，但若需要執行更高算力的AI推論時，就可切換到高效能處理模式，讓同一顆FPGA晶片可在這2個不同應用場景上執行。（詳全文）

北市聯醫 工研院 遠距照護

負傷不便遠行就醫有解法！北市聯醫聯手工研院開發遠距傷口照護App

臺北市立聯合醫院聯手工研院，耗時一年打造一款遠距傷口照護App，由護理人員攜帶智慧型手機與熱感影像感應器，至偏遠地區、行動不便的重症病患家中，來拍攝傷口照片，再透過雲端系統分辨上皮、肉芽、焦痂、浸潤、腐肉等5種傷口狀態，並計算傷口面積、傷口壞死情形、是否浸潤和發炎等。在遠端的醫生，可藉這套系統來診斷，讓不便遠行就醫的患者或長輩，在家也能接受傷口照護服務。

進一步來說，在拍照方面，醫護人員可先透過熱感影像儀，拍下傷口照片，透過不同溫度而呈現的不同顏色分布，來判斷傷口周圍皮膚是否有發炎現象。再來，透過工研院自建的傷口大小判讀AI模型，只要用手機拍下傷口與對照物的照片，或是利用熱感影像的紅外線測距，就能自動計算傷口的長與寬，未來，工研院還要開發出能計算傷口深度的AI模型，來給醫生更多治療的參考資訊。（詳全文）

Google 機器學習 公平性

Google推出機器學習公平性量測工具，要來降低模型偏差

Google發布AI公平性量測工具Fairness Indicators測試版，可針對二元和多類別分類進行運算與視覺化，幫助開發團隊評估、修正模型的偏差。進一步來說，這個工具可針對誤報率等常用的分類模型公平性指標來評估，還能計算信賴區間、評估多個閾值。在使用者介面上，使用者可以切換基準群組並調查不同指標的效能，也可為自己的使用案例，增加自定義的視覺化指標，也可用來產生透明性報告指標，幫助開發人員調校模型。

Google表示，公平性的顧慮與評估會因為案例而不同，因此Fairness Indicators工具還包含了一個互動式研究案例，提供Jigsaw毒性資料產生的意外偏差，說明檢測和修補機器學習模型偏差的方法。（詳全文）

保險 保單健診系統 自然語言處理

2周縮短成10分鐘！錠嵂啟用新AI保單健診系統

瞄準製作保單健診事倍功半的痛點，錠嵂保經宣布啟用AI保單健診系統，保險業務只需用手機拍下保戶的舊有保單，上傳至雲端平臺後，系統就能在幾分鐘內，自動產生保戶的保單健診報告，包括現有的保單明細、保障額度、不同險種的保障分析等。

這套系統利用OCR來辨識保單上的文字，要是有些因紙張皺褶、光線變化而難以辨識，就可透過NLP來理解上下文，推測出正確的字詞。此外，系統也與一套險專業知識資料庫整合，涵蓋2萬3千多條險種文件資料，幾乎涵蓋全臺灣的保險商品種類，來供系統精準判斷險種。目前AI系統已上線，供全臺2千多名業務人員使用。未來，錠嵂保經計畫開放這套系統，讓自家保戶可上網自行分析，提高保險透明度。（詳全文）

攝影／王若樸
圖片來源／Google、臉書、微軟

AI趨勢近期新聞

1. 鎖定高解析串流分析，清大開源CNN架構HarDNet，影像分類速度比常見ResNet-50架構快30%

2. Amazon向企業用戶推出Alexa知識技能，提供無程式碼查詢企業內資料的方法

3. 聯想智慧鬧鐘新增AI情境理解功能，可根據當下時間和天氣來播放不同鬧鈴

資料來源：iThome整理，2019年12月

重點新聞(1213～1219)

熱門新聞