Google進行了一項探索性研究,以證明語音強化技術,特別是噪音抑制器,也可以用於人工耳蝸,來強化用戶在吵雜的環境對聲音的理解。

人工耳蝸是一種電子裝置,可以經外科手術放置到聽障人士內耳中,透過外部聲音處理器,傳送電流來刺激神經,雖然人工耳蝸能夠將這些電流刺激,翻譯成為可以聆聽的語音,但是聆聽體驗會因為使用者身處環境,尤其是吵雜的環境,而有非常大的差異。現代人工耳蝸透過外部聲音處理器,來計算脈衝訊號以驅動電極,而該領域一直以來的重要挑戰,便是要想辦法良好處理聲音,把聲音轉換成為適當電極脈衝的方法。

針對這個問題,產業與學術界的科學家,舉辦了人工耳蝸黑客松來集思廣益,而Google則提出在人工耳蝸中使用Conv-TasNet語音強化模型的方式,來抑制非語音聲音,使得用戶能夠更清楚地聽到人聲語音。研究人員將音訊分解成16個重疊的波段,來對應人工耳蝸中的16個電極,但因為聲音的動態範圍容易跨越多個數量級,比預期電擊能表示的更多,因此研究人員需要使用正規化方法,壓縮動態範圍。

人工耳蝸用戶的喜好各有不同,整體的體驗來自於用戶對於聆聽各種類別音訊的評估,這些類別包括音樂,研究人員表示,雖然音樂對於用戶是一個重要聲音類型,但也是特別難以處理的類別。由於Google的語音強化網路被訓練能夠抑制非語音聲音,而這包含了噪音和音樂,因此他們特別採取額外的措施,來防止語音強化網路抑制音樂聲音,為了達到這個目的,研究人員使用開源的YAMNet分類器,來判斷語音與非語音,以即時調整混合音訊的比例,以確保有夠多的音樂不會被濾掉,能夠被使用者聽到。

研究人員使用Conv-TasNet模型,來實現非語音音訊的強化模組,該模組可以分離不同的聲音。一開始原始音訊波型,會被轉換為神經網路可以使用的形式,並且根據特徵分析來分離聲音,該模型會擷取特徵並生成兩種遮罩,一種遮罩用於語音,一種遮罩用於噪音,這些遮罩表示特徵為語音和噪音的程度,透過將遮罩和分析特徵相乘,以及一些轉換計算,得到分離語音和噪音的音訊。研究人員提到,Conv-TasNet模型有低延遲的特性,能夠即時產生分離語音和噪音的估算。

經過盲聽測試,這項研究成果可以在環境沒有包含太大背景噪音的時候,讓聆聽者可以理解語音內容,但是在提高語音的清晰度上,仍有很大的空間。另外,由於這個研究還處於探索階段,因此研究人員使用了290萬個變數的模型,但這個模型太大還無法實際應用到現今的人工耳蝸中,僅是展示這項技術的未來潛力。

熱門新聞

Advertisement