普通語音的聲譜圖(左)和經模型轉換的耳語語音聲譜圖

在2018年,Amazon在Alexa加入了耳語模式(Whisper Mode),讓Alexa也能模仿人類使用氣音低語說話,而Amazon在2020年1月的IEEE Signal Processing Letters期刊論文,公開背後所使用的人工智慧技術

Alexa的耳語模式,專門用在睡覺或是夜間等安靜的場景,當人們在需要保持安靜的地方,便會開始使用氣音低聲說話,而當Alexa偵測到人們使用氣音說話,便會自動開啟耳語模式輕聲的回話。在2019年11月的時候,耳語模式已經全面部署到Alexa裝置上,除了第一方Alexa裝置,連支援Alexa的智慧家電,都能使用耳語模式。

文字轉語音服務Amazon Polly應用科學家Marius Cotescu提到,他們開發耳語模式的目標,要在自然和維持說話者身份的條件下,將普通語音轉換成耳語語音。Amazon研究了三種方法,除了一種人工設計的數位訊號處理(DSP)方法之外,還有高斯混合模型(GMM)與深度神經網路(DNN)兩種機器學習方法。

Amazon以GMM以及DNN兩種機器學習技術,實作語音轉換(Voice Conversion)方法,語音轉換是將一組聲音特徵標示成語音訊號,並將普通語音的語音特徵,映射到耳語的語音特徵。GMM會嘗試辨識每個輸出特徵,尋找相符合的輸入值分布,而DNN則是由簡單處理節點所形成的密集網路,內部的設定會在訓練過程進行調整,在訓練的過程,網路會嘗試預測與特定輸入樣本關聯的輸出。這兩種方法都需要使用資料進行訓練。

Amazon使用兩種不同的資料集來訓練語音轉換系統,一種是由美國、澳大利亞、加拿大、德國和印度專業語音人士產生的語音資料集,另一種則是該領域的常用基準,兩個語音資料集都包含普通語音和耳語語音所構成的成對語音組合。

Marius Cotescu表示,多數神經文字轉語音系統,會將聲音特徵傳遞到人聲編碼器(Vocoder),以轉換成連續的聲音訊號,而Amazon的方法也不例外,因此為了比較語音轉換系統,研究團隊比較原始錄音(下圖藍)、透過人聲編碼器處理的原始錄音(下圖橘)、DNN(下圖綠)、GMM(下圖紅)以及DSP(下圖紫),以評估語音轉換系統的效能。

評估實驗除了針對同一位說話者的語音進行訓練與測試,也以多位說話者語音資料集進行交叉訓練與測試,Marius Cotescu表示,在單一說話者語音實驗中,原始錄音聽起來最自然,而GMM和DNN合成的耳語,則比經人聲編碼器處理的錄音還要自然,且在自然度、清晰度和說話者相似度都比DSP還要好,已經達到人生編碼器和特稱擷取鏈的技術極限。

而GMM和DNN兩者效能基本上差不多,不過DNN比GMM更容易擴充到多位說話者,在多個說話者的語音訓練上,DNN模型可以學習獨立於說話者的映射,對訓練語音資料集之外的人進行泛化產生耳語語音,甚至當有足夠多的訓練資料,DNN的輸出結果還堪比錄音品質,不過DNN模型無法跨型別產生語音,因此需要建立性別平衡的語料庫。經綜合評估,Amazon最終在Alexa的耳語模式上,使用DNN方法。


Advertisement

更多 iThome相關內容