Google應用神經網路開發音訊編碼器，不只壓縮音訊還能抑制噪音

Google發表最新將人工智慧應用在音訊解編碼器的研究，釋出端到端神經解編碼器SoundStream，這是一個應用神經網路的音訊解編碼器，可以提供高音質的音訊，並且支援清楚的語音、有雜音和回聲的語音，甚至是混雜音樂、語音和環境音的音訊，Google提到，SoundStream是第一個可以處理語音和音樂的神經網路解編碼器，可以在智慧型手機上即時執行。

音訊解編碼器用於有效率地壓縮音訊，以減少儲存和網路頻寬需求，而理想的情況，音訊解編碼器的存在，應該要讓使用者無感，包括無法察覺解碼後的音訊，與原始音訊間存在差異，而且解編碼的過程，也不能產生可察覺的延遲。

市面上以及Google的各種影音服務，大量使用了音訊解編碼器，像是Opus和增強型語音服務（Enhanced Voice Services，EVS）。Opus是一種多功能語音和音訊解編碼器，支援從6 kbps到510 kbps的位元率，已經被Google用於視訊會議平臺Meet，還有串流媒體服務YouTube等應用程式中。而EVS則是3GPP標準化機構所開發，是針對行動電話所開發的解編碼器，和Opus相同，是能夠處理多種位元率的多功能解編碼器。

這兩種解編碼器雖然可以在中低位元率中表現出色，但是在極低位元率，像是小於等於3 kbps的情況，音質就會急轉直下，Google提到，過去人類利用專業知識，以及增加壓縮演算法的效率，來最佳化音訊的處理，但最近研究人員開始使用機器學習來代替人工設計，以資料驅動的方法學習解編碼音訊。

Google發布最新的端到端神經解編碼器SoundStream，其主要技術便是使用神經網路，由編碼器、解碼器和量化器組合而成，所有這些都經過端到端訓練。編碼器會將輸入的音訊，串流為編碼訊號，接著使用量化器對其進行壓縮，並且使用解碼器將訊號轉換回音訊。

研究人員提到，SoundStream使用了神經音訊合成領域中，目前最先進的解決方案，透過訓練判別器（Discriminator），計算對抗性和重建損失函式的組合，讓重建的音訊聽起來就像是未壓縮的原始音訊，進而提供高品質音訊輸出。

經過訓練後，解碼器和編碼器可以分別在單獨的客戶端運作，以提高網路傳輸高品質音訊的效率。SoundStream處理音訊的效率非常好，特別是在低位元率的情況，研究人員解釋，SoundStream使用3 kbps位元率所提供的音訊品質，超過使用12 kbps位元率的Opus，以及9.6 kbps的EVS，位元率是這些解編碼器的三分之一到四分之一，這代表SoundStream可以使用更小的頻寬，提供類似的音訊品質。

在早前，Google發表了基於回歸網路的Lyra音訊解編碼器，而與SoundStream比起來，SoundStream仍然優於Lyra當前的版本，研究人員也提到，在傳統音訊處理工作管線中，壓縮和增強使用不同模組進行，但這樣的方法會增加系統延遲。而Google採取不同的策略，將壓縮和增強功能綜合在同一個模型中，能夠同時進行壓縮和背景降噪，但又不增加延遲。

Google表示，SoundStream是將機器學習技術，應用在音訊解編碼器中重要的一步，比目前最先進的解編碼器Opus和EVS效果更好，而且只需要部署一個可擴展的模型。SoundStream會與下一版本的Lyra一起發布，藉由整合SoundStream與Lyra，開發人員可以利用現有的Lyra API和工具，來提供更好的音質。

熱門新聞