圖片來源: 

Meta

Meta本周公布一項以AI壓縮音訊的技術,便於在較低頻寬的網路上傳送語音或音樂檔案。

即使今天網路已頗為便利,但使用串流多媒體、傳送高品質音樂仍需要相當大的頻寬及儲存空間,若提升到元宇宙的體驗,將對網路頻寬帶來更大負擔,也提升業界對壓縮技術的需求。Meta的基礎AI研究(Fundamental AI Research,FAIR)部門本周展示AI音訊超壓縮(hypercompression)技術,號稱可在低頻寬網路傳送聲音檔案,而不會發生斷斷續續甚至失聲情形。

FAIR小組的方法是建了一個名為EnCodec模型系統,運用AI全程訓練,使之可以壓縮音訊檔到設定的目標。EnCodec包含三部份,分別是編碼器(encoder)、量化器(quantizer)及解碼器。編碼器可以將原始資料轉成較高維度及較低影格率(frame rate)的格式,量化器則將這格式資料壓縮。研究人員表示,量化器經由訓練能壓縮資料到計畫團隊想要的大小,同時保留最重要的資訊,後者角色如同MP3檔,可用以儲存或在網路上傳送。

圖片來源/Meta

最後一步是解碼器,可將壓縮訊息重建為類似原始音訊的波形。研究人員說其中關鍵在於發現人類察覺不到的變化。為此FAIR團隊利用鑑別器(Discriminator)來提升生成樣本(generated sample)的永久品質;鑑別器負責比對原始樣本和生成樣本的差異。因此,壓縮模型試圖改良生成樣本,最終目的產生品質可騙過鑑別器的樣本。

在一項針對1.5kbps到12kbps低位元速率(bit rate)語音壓縮測試中,標註員比對包括Google最新Lyra-v2、Meta EnCodec等壓縮方法,以及未壓縮原始音訊。根據Meta研究小組說明,EnCodec在各種頻寬及音訊品質上,都能在單一CPU核心系統上即時編碼及解碼。此外, EnCodec(6kbps)壓縮率是MP3(64kbps)的近10倍。雖然以神經網路壓縮音訊的方法以前也有人做過,但是Meta強調它是第一家將AI技術用於48kHz(約等於CD音質)立體聲音的。

目前Meta這項語音壓縮技術尚未涵括影像檔,不過身為積極開發元宇宙不惜一切的公司成員,FAIR團隊表示已展開對影像應用的研究,如視訊會議、串流電影,或是在VR環境中和友人一起打Game。

Meta也將EnCodec技術的程式碼及樣本公布在GitHub上,也公布了技術白皮書

熱門新聞

Advertisement