Meta公開效果比MP3好10倍的AI語音壓縮技術

圖片來源:

Meta

Meta本周公布一項以AI壓縮音訊的技術，便於在較低頻寬的網路上傳送語音或音樂檔案。

即使今天網路已頗為便利，但使用串流多媒體、傳送高品質音樂仍需要相當大的頻寬及儲存空間，若提升到元宇宙的體驗，將對網路頻寬帶來更大負擔，也提升業界對壓縮技術的需求。Meta的基礎AI研究（Fundamental AI Research，FAIR）部門本周展示AI音訊超壓縮（hypercompression）技術，號稱可在低頻寬網路傳送聲音檔案，而不會發生斷斷續續甚至失聲情形。

FAIR小組的方法是建了一個名為EnCodec模型系統，運用AI全程訓練，使之可以壓縮音訊檔到設定的目標。EnCodec包含三部份，分別是編碼器（encoder）、量化器（quantizer）及解碼器。編碼器可以將原始資料轉成較高維度及較低影格率（frame rate）的格式，量化器則將這格式資料壓縮。研究人員表示，量化器經由訓練能壓縮資料到計畫團隊想要的大小，同時保留最重要的資訊，後者角色如同MP3檔，可用以儲存或在網路上傳送。

圖片來源／Meta

最後一步是解碼器，可將壓縮訊息重建為類似原始音訊的波形。研究人員說其中關鍵在於發現人類察覺不到的變化。為此FAIR團隊利用鑑別器（Discriminator）來提升生成樣本（generated sample）的永久品質；鑑別器負責比對原始樣本和生成樣本的差異。因此，壓縮模型試圖改良生成樣本，最終目的產生品質可騙過鑑別器的樣本。

在一項針對1.5kbps到12kbps低位元速率（bit rate）語音壓縮測試中，標註員比對包括Google最新Lyra-v2、Meta EnCodec等壓縮方法，以及未壓縮原始音訊。根據Meta研究小組說明，EnCodec在各種頻寬及音訊品質上，都能在單一CPU核心系統上即時編碼及解碼。此外， EnCodec（6kbps）壓縮率是MP3（64kbps）的近10倍。雖然以神經網路壓縮音訊的方法以前也有人做過，但是Meta強調它是第一家將AI技術用於48kHz（約等於CD音質）立體聲音的。

目前Meta這項語音壓縮技術尚未涵括影像檔，不過身為積極開發元宇宙不惜一切的公司成員，FAIR團隊表示已展開對影像應用的研究，如視訊會議、串流電影，或是在VR環境中和友人一起打Game。

Meta也將EnCodec技術的程式碼及樣本公布在GitHub上，也公布了技術白皮書。

熱門新聞