AWS用新方法改良自然語言模型，讓Alexa語音辨識錯誤率降低15％

Alexa總是聽錯你說的嗎？AWS最近透過新方法來改良自然語言模型，使Alexa的語音辨識錯誤率降低15％，AWS研究團隊也將該研究成果發表於IEEE口語科技研討會，自然語言模型是語音自動辨識系統的關鍵元件，自然語言模型會根據統計的相似性，擷取特定字串的文字，因此，該模型能夠辨識相同聲音序列不同的表達，當模型理解上下文的語境時，語音辨識系統的準確率就會比較高。

當語音服務加入新功能時，會建立一組新的上下文內容，並更新相關的自然語言模型，但是建立自然語言模型需要有大量的訓練資料，而新功能通常沒有相關的訓練資料，因此，多半是透過正式的語法來產生簡單的語句，這樣的方法能夠產生足夠的訓練資料，但是非常耗時，所以替代方案則是用語法輸出的隨機樣本當作訓練資料。

AWS透過一套特殊的演算法，能夠用語法規則的圖像特徵分析成特定的數學表徵（representation），並直接計算語法產生任何字串的相關性，此外，AWS也直接透過語法將現有的語言模型，整合至新的語言模型中，如此一來，就不會降低已建立的模型效能。在研究實驗中，AWS研究團隊針對相同語法的輸出，進行採樣並建立語言模型，透過新方法建立的語言模型，能夠讓語音辨識系統錯誤率下降15%。

在自然語言模型的研究中，一個語法會包含掌管替換單詞和片語的規則清單，例如，「我想要」的片語可以與「需要」或是「想要」等單詞替換，其他規則則是單詞連接實體名稱，像是歌名會與「播放」連結在一起，一般來說，自然語言研究人員會用有限狀態轉換器（finite-state transducers，FSTs），用節點或是圓圈與線來描繪語法關係的網路，AWS則是用這些計算出來的概率來建立語言模型。

首先，AWS建立的演算法會先辨識經過FSTs編譯過文字內容的每個字串，再分析每個字串在網路圖中的路徑，利用概率和這些路徑來計算特定字串的頻率，接著，為了整合到現有的模型中，AWS用機器學習系統挑選出兩個模型中最佳化的結果，最後，AWS利用3種不同的自然語言理解功能來評估模型，分別是查詢股票價格、查詢食譜和烹飪指示，和預定機票，結果顯示透過該方法針對語法的複雜性，預定機票的能力提升了15%。

熱門新聞