Google現在將原本應用在Gmail和Android上的智慧回覆功能(Smart Reply)擴展到YouTube Studio上,供創作者能夠更方便地與觀眾互動。目前這項功能還只支援英文和西班牙文,但Google提到,由於使用單一跨語言的模型,因此能夠簡化擴展至其他語言的過程。

智慧回覆是運用人工智慧技術,產生回覆訊息建議選項給用戶,用戶能夠直接使用或是修改,以快速回應來訊,Google提到,由於YouTube創作者會在影片下收到大量的回覆,而且觀眾可能來自不同的社群,智慧回覆功能協助創作者回應觀眾的評論,以及進行討論等互動

不過,應用在Gmail和Android的智慧回覆模型並不能直接搬到YouTube上使用,因為電子郵件的用語通常更為正式嚴謹,YouTube的評論存在更複雜的語言切換模式,並大量地使用表情符號,且觀眾對縮寫、慣用語以及標點符號使用習慣不一致,這些原因都讓Google在YouTube中添加智慧回覆功能充滿挑戰。

最一開始Google在Inbox應用程式中提供的智慧回覆,是使用遞迴神經網路逐字對輸入的電子郵件進行編碼,並使用另一個單詞等級的遞迴神經網路以解碼可能的回覆,Google提到,這種方法的計算成本很高,因此後來Google設計了一個檢索系統,透過搜尋預先定義的建議列表,找出最適當的回應,就能以更少的計算達到相同的功能。

這個檢索系統讓Google得以將智慧回覆功能擴展到Gmail,並且也成為了當前YouTube中智慧回覆的基礎,不過,過去的智慧回覆系統仰賴單詞等級的預處理,這種方法只在有限的語言以及較嚴謹的寫作風格有用,但YouTube中存在太多表情符號、ASCII藝術和語言切換等異質內容,因此Google決定在YouTube使用案例中,不在編碼文字前進行任何預處理,而研究也證明,Transformer網路能夠對字元長序列進行建模,並獲得與基於單詞的模型相同的品質。

雖然這個初步結果,對於處理帶有表情符號或錯字的評論,有很不錯的效能,但是因為Google是以字元長序列直接進行建模,比單詞還要長得多,因此運算也更複雜,使得模型預測速度無法用於生產環境中,後來Google借鏡訊號處理模型WaveNet中的膨脹技術,在神經網路的每一層都縮短一點字元序列長度,最終在運算速度和品質中取得平衡。

Google沒有為每種語言都訓練單獨的模型,而是訓練一個跨語言的模型,Google提到,單一跨語言模型能夠更好地處理YouTube評論中語言混用的情況,並使得模型能夠利用一種語言中常見的元素,來理解另一種語言,而且只用一個模型,就能夠簡化維護和其他後續的工作。

目前這個模型已經能夠支援英文和西班牙文,但是其靈活性也能夠擴展支援其他語言,這種特性在Google還沒用平行語料庫訓練模型就已經出現,把模型對英文評論「這是一個很棒的影片」的回覆進行分群,阿拉伯文、英文和西班牙文相近的回覆,在圖表的距離相當接近,不同語言但意義相似的回覆,會在圖表中出現跨語言的聚類。

熱門新聞

Advertisement