Google為減少語音轉字幕App的行動網路流量，在裝置上部署語音偵測模型

Google推出Android語音轉字幕應用程式Live Transcribe，以幫助聽障人士與外界溝通，並進一步公開其設計細節。這個應用程式使用了當前Google雲端自動語音辨識（Automatic Speech Recognition ，ASR）技術，以及裝置上機器學習，並且與專為聾人和弱聽人士而設的高立德大學合作，進行使用者體驗研究。

藉由自動語音辨識技術，耳聾和聽力障礙人士可以更方便的接受外界的語音訊息，Google在YouTube中應用自動語音辨識提供字幕，也用於簡報展示以及電話撥打中。雖然這項技術在這幾年已經有長足的進步，但是聽障人士仍主要依賴人工手動轉錄服務，而這些服務價格昂貴，還需要事先安排，間接影響聽障人士參與社交的機會。

Google解釋過去之所以自動轉錄服務還無法普及的原因，除了因為應用自動語音辨識進行轉錄，需要計算密集的模型之外，還需要進行詳盡的使用者研究以及付出高昂的存取成本，Google結合廣泛的用戶體體驗，以及無縫且可持續連接提供服務的伺服器，打造出Live Transcribe服務。

Google設計Live Transcribe其中一個重要的考量，是避免使用者消耗過多資料流量，為此，Google在行動裝置上實作了類神經網路語音偵測器，並使用了大規模聲音資料集AudioSet，Google提到，該網路是一個類似VGGish的圖像模型，能夠偵測語音，並且自動管理到雲端自動語音辨識引擎的網路連結，在長時間使用的狀況下，能最大程度減少資料用量。

另外，為了讓Live Transcribe更符合聽障人士使用習慣，Google與高立德大學合作，進行用戶體驗合作，以確保應用程式可以滿足核心用戶的需要，Google一開始對電腦、平板電腦、智慧型手機甚至是微型投影機都做了使用研究，設計顯示聽覺訊息和字幕的方法，最後Google決定專注發展在智慧型手機上的應用，因為手機無所不在。

Google選擇不在Live Transcribe上顯示轉錄信心程度，過去研究認為，在字幕上顯示單詞或是短語的信心程度，將有助於用戶理解轉錄字幕，但Google的最新研究顯示，在字幕上不顯示這些訊息，將有助於用戶閱讀字幕，Google選擇專注呈現文字，並以其他方式補充其他語音訊號。

在應用程式使用現場，常會發生雞尾酒派對問題，也就是現場聲音太過吵雜，影響語音轉錄的結果，因此Google在使用者體驗訊號，加入了當前噪音程度的圖形指示，可以顯示當前用戶語音相對背景聲音的音量，為用戶提供了語音品質的即時回饋，以進一步調整手機擺放的位置。

Google提到，完全仰賴語音轉錄技術，可能發生錯誤傳達，因此Google會與高立德大學繼續合作，結合語音偵測和響度指示器等其他聽覺訊號，為用戶提供更完整、切實的有意義的通訊。

熱門新聞