由政府主導的第一個電腦中文字庫網站終於問世,行政院主計處電子處理資料中心建置「CNS11643 中文標準交換碼全字庫」網站,收集54,858個中文繁體字,提供字形下載及BIG-5、EUC、Unicode等繁體字的常用內碼與CNS中標碼互轉,主計處也同時積極推動將該字庫納入ISO及Unicode字碼定義範圍中。
由政府主導的第一個電腦中文標準交換字庫終於問世,中文字型中缺字、造字問題將有初步的解決之道。行政院主計處電子處理資料中心結合財團法人中文數位化技術推廣基金會(中推會)資源,收集54,858個中文繁體字,建置「CNS11643 中文標準交換碼全字庫」網站,提供字形下載及BIG-5、EUC、Unicode等中文繁體字的常用內碼與CNS中標碼互轉功能。
電腦中文字內碼問題,對中文軟體設計一直造成相當大的困擾,除了未有統一的中文繁體內碼外,即使是一般個人電腦上最常見的繁體BIG-5碼,因其基本定義的標準常用字僅1萬多個,因此電腦上對於一般較不常用的中文字,就產生了顯示、列印、輸入及資料交換上的問題,對於作業內容常涉及人名的戶政、海關、法院等機關或企業,產生諸多不便。例如目前媒體上常見的人名如「王建ㄒㄩㄢ」、「游錫ㄎㄨㄣ」、「陶ㄓㄜ/」,就屬於中文大五碼中的「外字」。
過去「外字」的解決之道,莫過於配合軟體業者推出的「造字程式」或「外字系統」來補強。不過,行政院主計處電子處理資料中心與中推會合作,收集戶政機關中常用的54,858個中文繁體字,日前正式成立「CNS11643 中文標準交換碼全字庫」網站,提供中文字查詢、下載字型及BIG-5、EUC、Unicode等中文繁體字的常用內碼互轉,未來使用者若發現電腦中沒有的中文字,就不必再自行辛苦造字,新字只要在字庫的範圍內,就可由網站上下載。
行政院主計處電子處理資料中心分析師馬瑪莉表示,CNS中標碼網站的推出,主要是因應網路時代,電腦字的交換、分享及網路出版的問題。除了不必再造字外,網站也提供了「轉碼程式」,供一般PC上的BIG-5碼、戶政機關使用的EUC碼及Unix上的Unicode碼,與CNS中標碼互轉。
「CNS11643 中文標準交換碼全字庫」網站提供「外字」多種查詢方式,如注音、倉頡碼、筆劃、部首及複合式查詢,不必擔心看到「怪字」不會寫、不會唸。使用者查到所需要的字後,可立即免費下載標準字形與「字形轉入工具」,將「外字」加入Windows系統中的造字區。
另一個可免費下載的程式則是「轉碼程式」,假設某甲計畫Office 2000中的Unicode萬國碼編碼方式製作一篇文章,並將其傳遞給其他印刷廠,雙方就可分別下載「轉碼程式」,以CNS中標碼為中介,轉換成彼此適用的字碼。
不過,目前「CNS11643 中文標準交換碼全字庫」提供的功能仍有些限制,比如只能進行純文字檔(.txt)的字碼轉換、因造字字碼位置相同造成衝碼問題等,馬瑪莉指出,未來該字庫還會持續第二期的改進計畫,包括繼續收集「外字」、加入「符號」、解決網路出版問題等。
目前行政院主計處及中推會,也正計畫將「CNS11643 中文標準交換碼全字庫」,加入國際標準組織ISO10646Plane2字型擴充計畫中,若進行順利,未來主推Unicode的微軟、IBM等大廠,將會在Unicode中納入這些「外字」,讓目前僅收集2萬多個中文繁體字的Unicode碼,擴充至5萬多字。
「CNS11643 中文標準交換碼全字庫」計畫主導者為行政院主計處電子處理資料中心,民間中推會參與業者包括神通、倚天、IBM、文鼎、微軟、華康、神呼科技、網通科技、大同等。
熱門新聞
2024-11-18
2024-11-20
2024-11-12
2024-11-15
2024-11-15
2024-11-19