臺灣AI實驗室創辦人杜奕瑾表示,語音辨識技術深受在地化需求的影響,需要用在地語料打造出來的語音辨識引擎,才能真正打造符合臺灣在地需求、貼近在地民眾的說話用語,或使用習慣。(攝影/洪政偉)

圖片來源: 

臺灣AI實驗室,杜奕瑾,

為何同樣是中文語音辨識,臺灣AI實驗室推出的中文語音轉文字App,和用國外做出來的就是很不一樣,有著濃濃的臺味,許多臺灣人用了以後,都對它讚不絕口,而且去年底一推出,就引發熱烈迴響,不到一周就衝上Android平臺生產力類第一名,成為最受歡迎App,甚至比Google Drive、Gmail下載的用戶都還多,不但記者拿它記錄,聽障人士聽廣播、看電視也都用它。

臺灣AI實驗室去年底推出一款逐字稿App,靠著使用臺灣在地語料,學習民眾常見的用詞、習慣用語,一推出就大受好評,現在不只能辨識在地的PTT鄉民用語, 甚至再過幾個月,中英夾雜說話方式也難不倒它。

語音辨識要貼近在地需求,在地化資料是關鍵

臺灣AI實驗室創辦人杜奕瑾點出關鍵,就在於他們開發的中文語音辨識引擎,用的是土生土長的臺灣在地化語料,蒐羅了包含臺灣新聞、電視節目、 批踢踢(PTT)文章等語音和文字資料,讓AI可以經由學習,知道臺灣民眾常見的用詞、習慣用語,或說話方式等,就連幫App取名稱也很在地,就叫「雅婷」。現在不只能辨識「踹共」、「母湯」這些鄉民用語, 甚至再過幾個月,中英夾雜說話方式也難不倒它。

「語音辨識技術深受在地化需求的影響。」 杜奕瑾說明,即使英文的語音辨識很強,不見得在中文辨識就會比較厲害,因為需要用在地語料,才能開發出符合當地需求、貼近在地民眾的使用習慣、說話用語的語音應用,就連現在許多常見詞彙,比如PTT鄉民用語,實際拿國外語音辨識引擎來試,很多都不及格,正反映了它很需要在地化資料。

如今,臺灣在中文語音辨識準確率上,跟國外相比毫不遜色,甚至有的辨識效果比國外還準確。根據臺灣AI實驗室用華語文能力測驗來做測試,語音判斷的結果已經比中國科大訊飛和Google都好,中文字錯字率(word error rate)已經達到5 ~6%,科大訊飛的錯字率則有15~16%,兩者相差多達10%。對照國外產業Switchboard語音辨識基準測試的字錯率,錯字率低於6%,等同於人類專業速記員水準,雖然兩者比較的基礎不同,但也反映出,臺灣在中文語音辨識技術上的重要突破。

要用軟體創造取代傳統代工思維

不過,杜奕瑾也直言,幾年前剛回臺決定要發展臺灣在地化AI技術時,很多人都不看好,甚至也有科技界大老看衰,不相信臺灣有能力會做得好,「我覺得這是沒必要的悲觀」,其實臺灣的軟體開發能力是不輸全世界,重點是有沒有想要好好地在臺灣發展軟體產業。

他也指出,臺灣想要發展在地化的中文AI語音引擎,最大挑戰是要改變思維,應以軟體創造思維,來取代一味模仿或壓低製造成本的傳統代工思維,才能在新技術出現時,很快從自身周圍問題找到潛在應用,把它做到最好。

「這就是我們要推雅婷這個App的原因。」杜奕瑾說真正目的,是要向全世界證明,臺灣不只有能力自己做,而且更要在最短時間完成,然後開放讓所有人都能使用。當這些人在使用的同時,也就在厚植臺灣在地AI軟體實力,同時吸引更多臺灣一流軟體人才回流,共同一起幫臺灣在地AI語音引擎做到更好。

熱門新聞

Advertisement