Google推出Android語音轉字幕應用程式Live Transcribe,以幫助聽障人士與外界溝通,並進一步公開其設計細節。這個應用程式使用了當前Google雲端自動語音辨識(Automatic Speech Recognition ,ASR)技術,以及裝置上機器學習,並且與專為聾人和弱聽人士而設的高立德大學合作,進行使用者體驗研究。

藉由自動語音辨識技術,耳聾和聽力障礙人士可以更方便的接受外界的語音訊息,Google在YouTube中應用自動語音辨識提供字幕,也用於簡報展示以及電話撥打中。雖然這項技術在這幾年已經有長足的進步,但是聽障人士仍主要依賴人工手動轉錄服務,而這些服務價格昂貴,還需要事先安排,間接影響聽障人士參與社交的機會。

Google解釋過去之所以自動轉錄服務還無法普及的原因,除了因為應用自動語音辨識進行轉錄,需要計算密集的模型之外,還需要進行詳盡的使用者研究以及付出高昂的存取成本,Google結合廣泛的用戶體體驗,以及無縫且可持續連接提供服務的伺服器,打造出Live Transcribe服務。

 

 

Google設計Live Transcribe其中一個重要的考量,是避免使用者消耗過多資料流量,為此,Google在行動裝置上實作了類神經網路語音偵測器,並使用了大規模聲音資料集AudioSet,Google提到,該網路是一個類似VGGish的圖像模型,能夠偵測語音,並且自動管理到雲端自動語音辨識引擎的網路連結,在長時間使用的狀況下,能最大程度減少資料用量。

另外,為了讓Live Transcribe更符合聽障人士使用習慣,Google與高立德大學合作,進行用戶體驗合作,以確保應用程式可以滿足核心用戶的需要,Google一開始對電腦、平板電腦、智慧型手機甚至是微型投影機都做了使用研究,設計顯示聽覺訊息和字幕的方法,最後Google決定專注發展在智慧型手機上的應用,因為手機無所不在。

Google選擇不在Live Transcribe上顯示轉錄信心程度,過去研究認為,在字幕上顯示單詞或是短語的信心程度,將有助於用戶理解轉錄字幕,但Google的最新研究顯示,在字幕上不顯示這些訊息,將有助於用戶閱讀字幕,Google選擇專注呈現文字,並以其他方式補充其他語音訊號。

在應用程式使用現場,常會發生雞尾酒派對問題,也就是現場聲音太過吵雜,影響語音轉錄的結果,因此Google在使用者體驗訊號,加入了當前噪音程度的圖形指示,可以顯示當前用戶語音相對背景聲音的音量,為用戶提供了語音品質的即時回饋,以進一步調整手機擺放的位置。

Google提到,完全仰賴語音轉錄技術,可能發生錯誤傳達,因此Google會與高立德大學繼續合作,結合語音偵測和響度指示器等其他聽覺訊號,為用戶提供更完整、切實的有意義的通訊。

熱門新聞

Advertisement