Amazon揭露Alexa耳語模式背後的AI技術

普通語音的聲譜圖（左）和經模型轉換的耳語語音聲譜圖

在2018年，Amazon在Alexa加入了耳語模式（Whisper Mode），讓Alexa也能模仿人類使用氣音低語說話，而Amazon在2020年1月的IEEE Signal Processing Letters期刊論文，公開背後所使用的人工智慧技術。

Alexa的耳語模式，專門用在睡覺或是夜間等安靜的場景，當人們在需要保持安靜的地方，便會開始使用氣音低聲說話，而當Alexa偵測到人們使用氣音說話，便會自動開啟耳語模式輕聲的回話。在2019年11月的時候，耳語模式已經全面部署到Alexa裝置上，除了第一方Alexa裝置，連支援Alexa的智慧家電，都能使用耳語模式。

文字轉語音服務Amazon Polly應用科學家Marius Cotescu提到，他們開發耳語模式的目標，要在自然和維持說話者身份的條件下，將普通語音轉換成耳語語音。Amazon研究了三種方法，除了一種人工設計的數位訊號處理（DSP）方法之外，還有高斯混合模型（GMM）與深度神經網路（DNN）兩種機器學習方法。

Amazon以GMM以及DNN兩種機器學習技術，實作語音轉換（Voice Conversion）方法，語音轉換是將一組聲音特徵標示成語音訊號，並將普通語音的語音特徵，映射到耳語的語音特徵。GMM會嘗試辨識每個輸出特徵，尋找相符合的輸入值分布，而DNN則是由簡單處理節點所形成的密集網路，內部的設定會在訓練過程進行調整，在訓練的過程，網路會嘗試預測與特定輸入樣本關聯的輸出。這兩種方法都需要使用資料進行訓練。

Amazon使用兩種不同的資料集來訓練語音轉換系統，一種是由美國、澳大利亞、加拿大、德國和印度專業語音人士產生的語音資料集，另一種則是該領域的常用基準，兩個語音資料集都包含普通語音和耳語語音所構成的成對語音組合。

Marius Cotescu表示，多數神經文字轉語音系統，會將聲音特徵傳遞到人聲編碼器（Vocoder），以轉換成連續的聲音訊號，而Amazon的方法也不例外，因此為了比較語音轉換系統，研究團隊比較原始錄音（下圖藍）、透過人聲編碼器處理的原始錄音（下圖橘）、DNN（下圖綠）、GMM（下圖紅）以及DSP（下圖紫），以評估語音轉換系統的效能。

評估實驗除了針對同一位說話者的語音進行訓練與測試，也以多位說話者語音資料集進行交叉訓練與測試，Marius Cotescu表示，在單一說話者語音實驗中，原始錄音聽起來最自然，而GMM和DNN合成的耳語，則比經人聲編碼器處理的錄音還要自然，且在自然度、清晰度和說話者相似度都比DSP還要好，已經達到人生編碼器和特稱擷取鏈的技術極限。

而GMM和DNN兩者效能基本上差不多，不過DNN比GMM更容易擴充到多位說話者，在多個說話者的語音訓練上，DNN模型可以學習獨立於說話者的映射，對訓練語音資料集之外的人進行泛化產生耳語語音，甚至當有足夠多的訓練資料，DNN的輸出結果還堪比錄音品質，不過DNN模型無法跨型別產生語音，因此需要建立性別平衡的語料庫。經綜合評估，Amazon最終在Alexa的耳語模式上，使用DNN方法。

熱門新聞