中研院近日正式開源釋出了自行研發多年的自動化中文斷詞程式,並已放上GitHub平臺。

圖片來源: 

GitHub

從事中文自然語言處理(NLP)研究的中研院CKIP Lab中文詞知識庫小組,近日正式開源釋出了自行研發多年的一套中文斷詞程式,提供給在臺灣從事中文NLP研究的學術圈或開發者來使用,這也意謂著,臺灣終於有了一套國產的自動化中文斷詞工具可以拿來用,而且完全開源,目前已放上GitHub平臺上,開放給大家試用。

中文NLP研究常用到的自動化中文斷詞工具,實際上,中研院CKIP Lab中文詞知識庫小組自己也有一套國產品,但以前沒有開源,僅提供安裝執行檔,並未提供原始碼,因此,過去使用上一直不如中國開源的中文斷詞工具Jieba(結巴)好用。

不過,這次中研院決定將自己的中文斷詞工具開源釋出,並放上程式代管平臺GitHub,對於臺灣中文NLP研究者或開發者來說,無疑是一大福音。現在使用者已經可以透過該平臺來安裝使用這個斷詞工具,並可依據自己需求,來修改原始碼,增加更多新功能或特色,用於處理文本、語義分析的使用。

中研院更改了原先的CC BY-SA授權方式,改以更具開源精神的GPL 3.0授權釋出,不論是學術研究或其他商業用途,任何人已經皆可自由使用,但必須合乎GPL-3.0的授權規範,倘若希望採用非提供衍生源碼的傳統商業模式,則可採傳統的商業授權。

雖然,中研院開源了自家的中文斷詞程式,不過一開始誤用了較不易散播的創用CC BY-NC-SA 4.0(也就是姓名標示、非商用、相同方式分享)方式授權,引起社群熱烈討論,隨後,中研院在今晚(5日)有重新調整更適合的授權,改採用正式GPL-3.0(GNU General Public License v3.0)釋出,代表不論是學術研究或其他商業用途,任何人已經皆可自由使用、修改、發布該程式源碼,但必須符合GPL-3.0的授權規範,而倘若採用GPL-3.0授權版本做為商業使用,同樣得要套用GPL提供衍生源碼;但若希望採用非提供衍生源碼的傳統商業模式,則可另洽中研院團隊以取得傳統的商業授權。

根據該工具的文件說明,這套CkipTagger中文處理工具,不只提供繁體中文斷詞的功能,也加入詞性標注和18類專有名詞的實體辨識(Named entity recognition)等功能,甚至當以多達5萬句的ASBC 4.0漢語語料庫測試集,來進行中文斷詞測試時,CkipTagger表現遠高於中國的結巴,中研院在中文斷詞準確度可達到97.49%,相較之下,中國的結巴只有90.51%。

新版本也提供幾大特色,包括了加強斷詞表現、可以不自動刪/改字,並且能夠支援不限長度的句子,另外,新版也加入使用者自訂功能,提供參考/強制 詞典的自訂功能。

不只開源中文斷詞程式,我們今年初採訪該詞庫小組計畫負責人馬偉雲時,他也提到,接下來,將用4年的時間,將中文維基百科上的百萬詞彙,自動建立其知識圖譜,來打造成為一個具有百萬中文詞庫的知識庫。他更計畫以中研院現有9萬詞彙所建立的知識圖譜架構,發展相關的自然語言處理工具,可以自動建立其知識圖譜。

熱門新聞

Advertisement