【尋找在地AI技術力】臺灣的中文語音引擎在哪裡？（下）

臺灣IC設計商威盛電子旗下品牌歐拉蜜（Olami），開發了一個中文語音助理，不只能用普通話溝通，也聽得懂臺語，還提供智慧喇叭開發套件，讓企業或開發者能設計出客製化聲控裝置。（圖片來源／翻攝自Olami官方影片）

但同樣也是說中文，中文還是我們的母語，臺灣難道沒有一套能用的中文AI語音引擎嗎？

其實不然，iThome記者親自走訪一輪發現，臺灣是有的，而且厲害的人也不少，只是一直以來都默默耕耘，沒有被看見。連曾負責開發微軟個人語音助理Cortana，2年前回來成立臺灣AI實驗室的杜奕瑾都說：「我們已經做到了，可以來找我們。」

工研院早從二十多年前就開始從事臺灣中文語音研究，2年前更公開展示過一個能聽懂臺灣國語的個人語音助理，用的就是他們自行開發的中文AI語音引擎。臺灣老牌喇叭製造商淇譽電子去年更延攬這個開發團隊，協助開發在地化的智慧喇叭，之後也將搭載在該公司與中華電信合推的智慧喇叭上。

另一家臺灣IC設計商威盛電子旗下AI人機互動品牌歐拉蜜（Olami），同樣也有開發一個在地的中文語音助理，而且不只能用中文溝通，去年也開始可以聽懂臺語，使用者還可以用道地的臺語腔來向它點播歌曲，並且還提供了一個智慧喇叭開發套件，讓企業或開發者能用它設計出自己想要的聲控裝置。

不只傳統音響或IC公司，臺灣也有越來越多的AI新創生力軍投入，如臺灣AI實驗室去年底自行研發推出一款在地化的語音辨識App，名為雅婷，能即時聽辨中文語音，再轉成文字，有別國外的語音辨識，因為是利用臺灣在地化的中文語料做訓練，可以更符合臺灣在地人的講話習慣或說話方式，甚至連臺灣批踢踢（PTT）上常見的鄉民用語都難不倒它，一推出就引起熱烈迴響，短短一周就攻佔Android手機平臺，成為生產力類最受歡迎App。

以前只有指令式語音辨識的本土語音辨識商賽微科技，4年前也開始針對語音指令結合中文自然理解處理能力，讓使用者可改用更自然地口吻說話，而不用像看說明書一樣，一個口令、一個動作。甚至，後來更結合深度學習技術，持續蒐集在地語料讓語音辨識準度做得更好。目前也有跟臺灣電商合作，用於網路語音購物。去年該公司還成立語音助理開發團隊，未來也將針對語音辨識推出自然語言處理（NLP）自動化工具，要讓企業上手更容易。

中文NLP研究常用到的自動化中文斷詞工具，實際上，中研院CKIP Lab中文詞知識庫小組自己也有一套國產品，但以前沒有開源，很多人只好換用中國開源的中文斷詞工具Jieba（結巴）。不過，中研院從去年開始釋出技術，要讓用的人更方便，甚至未來4年，還要加入所有中文維基百科語料，搭配現有中研院將近9萬詞彙的語料庫，來打造一套百萬中文詞彙知識庫，要提供給臺灣企業或廠商來使用。

臺灣在地化AI語音引擎的挑戰

不過，語音Chatbot和智慧喇叭搭載的個人語音助理，在應用上還是有些不同，有別於特定領域為主的Chatbot，語音助理比較像是通用型Chatbot，應用場景更複雜，更需要累積大量背景知識，才能依據不同對話場景，如家中、辦公室，甚至是戶外場所，對使用者做出相對應的回覆，或是依指令執行特定任務。例如「今天到百貨公司買衣服，第2件5折」，如果機器人沒有「優惠折扣」這個背景知識，就沒辦法做出正確的回應。

再者，有別於文字，語音需要先將聲音轉成文字，再從文字去理解。這也涉及到了語音轉文字，甚至是語音合成的技術。前者語音辨識的準確度也會影響後面語意分析的效果，能不能真正理解使用者說話的原意，這需要透過蒐集大量錄製的聲音資料來訓練語音辨識模型，才能讓它辨識度可以越來越好。或是想要讓語音合成的聲音，不要聽起來像機器人唸稿，缺少人性，需要透過機器學習來理解詞彙前後的關係，再來決定這個音該怎麼發，才能聽起來更親切。這並不是件容易的事，也大幅增加企業進入的門檻。

臺灣雖然有自己的中文AI語音引擎，技術上厲害的人也不少，但仍有未成熟或不足的地方，甚至還面臨到中國的嚴峻挑戰，使得企業目前在選用上還是多以國外或中國廠商為主，例如臺灣現在較少能提供像中國完整的中文AI語音技術解決方案，包含語音辨識、語意理解到後面合成串接在地服務，而且不少語音產品開放技術權限不夠多，企業想要客製自己的語音功能，例如說話聲調，或更多互動，只能自己想辦法，這也使得想要用的企業，現在只能先拿國外，甚至中國的AI語音引擎來用。

不少專家都預言，語音互動很有可能會是未來下一個應用程式或裝置互動介面，將成為不只喇叭，連各種IoT裝置都能用的新一代對話互動介面。臺灣應該也要有自己的中文AI語音引擎技術，因為這不僅僅是企業在地應用突破的關鍵，更是臺灣AI技術力能不能被世界看見的重要軟實力。

【業界觀點：淇譽電子副總經理何志宏】只用國外語音引擎消弱臺灣AI技術力

臺灣要發展在地的中文AI語音引擎，不能只靠舊的中文語料訓練，而是需要不斷有布建到外面的裝置，持續蒐進各類語音對話資料產生的新語料，才可以讓它變得更聰明，更貼近現在民眾的使用習慣、說話方式。

這也是Google 、Amazon現在正在做的事，要將自家的AI語音引擎布到不同IoT裝置上替它蒐語料。

一旦臺灣自己的智慧喇叭，裝進的是國外的AI語音引擎，再賣給民眾來使用，淇譽電子副總經理何志宏直言：「這就等於是我們在幫別人產生訓練用的中文新語料，讓對方的AI語音引擎變更聰明，只會讓臺灣AI技術力更落後。」

甚至，也因為AI語音技術是用別人家的，等於是自己的核心技術命門，一直被別人掐住，以後想要做任何新服務，都很容易會綁手綁腳，得要符合對方的規格行事，不但無法自己主控，甚至很多應用開發上，就會慢別人很多拍。

【專家觀點：清大資工系教授張俊盛】臺灣要做先進NLP研究至少要有10億詞彙語料

臺灣想要發展更先進的自然語言處理（NLP）技術，就需要有大量在地中文語料，但是長期在臺灣從事自然語言處理研究的清大資工系教授張俊盛坦言，目前臺灣很多在地語料都要不到，尤其是新聞報社和出版界的中文語料，過去累積了大量的中文資料，但都不願公開，「國內要做學術研究時，還得大老遠跑到美國拿，這是很荒謬的事情。」

如果想要從事更先進NLP研究，張俊盛認為，需要建置的中文語料庫規模最少要達到10億詞，而且語料太舊還不行，另外資料品質也要合乎標準，且兼具多樣性。

他更提到，臺灣目前缺乏建立一個語料庫共享平臺，如美國LDC共享語料庫等，可以讓各學校取用，拿來做自己的NLP研究，連臺灣的中文語料也蒐集，包括10億字中央社新聞語料庫等。

若在臺灣各校要研究使用的話，現在只能各自建自己的中文語料庫，等於是大家都在重複做同樣的事情，研究進展上，勢必就會落後別人。

熱門新聞