IBM研究院發布自動為新聞播報生成字幕的AI模型

圖片來源:

IBM

IBM研究院發布自動為新聞播報生成字幕的研究，利用長短期記憶（LSTM）網路和聲學神經網路模型，搭配輔助的語言模型，研究團隊與澳洲一家語音和搜尋科技公司Appen一同合作，在兩項測試實驗中，語音辨識系統的錯誤率分別為6.5%和5.9％，而人類辨識的錯誤率分別為 3.6%和2.8%。

IBM指出，在對話式電話語音領域中，語音辨識系統必須處理失真、來自多個不同電話通道的隨性語音錄音，還包含多種說話風格，且對話式語音還會有多個對話者重疊、中斷、重新開始和重複確認的語音。

而新聞廣播的語音辨識任務更具挑戰，因為還需要處理多人說話風格、多種背景噪音，和廣泛的新聞領域內容，甚至是多種題材的混合內容，像是現場採訪、電視節目的剪輯內容等。

為了能夠成功地辨識複雜的語音內容，為新聞播報內容生成字幕，IBM研究團隊透過語音辨識技術，建立了一套深度神經網路，該深度神經網路整合了長短期記憶網路和深度殘差網路（residual network，ResNet），以ResNet為基礎打造的聲學模型是含有多達25層卷積層的深度卷積式網路，用1,300個小時、多種不同的新聞內容資料，來訓練生成字幕的模型。

熱門新聞