用戶端、閘道端、開發工具齊全的華文轉換工具

溫普敦資訊在2002年11月,發表兩岸文件通的簡正轉換軟體,兩岸文件通是一套能將中文正、簡體內容即時相互轉換,並且達到辭彙轉換口語化,在字體轉換過程中,系統也能夠鎖定特定的專有名詞,不會受到文句次序影響被任意改變。

兩岸文件通的產品目前有21種,溫普敦資訊將這些產品分成A、B、C、N等4類,A類以微軟產品為主,包括Office、IE瀏覽器、SQL Server;B類提供網站代理式的網頁內容轉換,稱為即時通,目前有IIS、.NET和閘道版等版本,會架設在企業的網站伺服器的網路位置之前;C類是應用程式開發輔助工具,提供微軟COM、Windows API、Office、Java Class/Java Bean,以及無線設備Palm與WinCE等平臺的開發系統;N類是Lotus Notes平臺的簡正互通,包含網站、郵件用戶端程式、Lotus Notes應用程式、文件瀏覽轉換,以及資料簡正同步更新。用戶端文件轉換

溫普敦資訊技術總監林宗源表示,目前華人世界的內碼,臺灣與中國之間至少有6種內碼系統:Big-5、GB、正體Unicode、簡體Unicode、正體UTF-8 、簡體UTF-8,中國在最近制定了GB18030。臺灣方面,行政院近幾年也一直在推動CNS11643 國家標準中文交換碼標準。現存這麼多的中文內碼系統,都會增加資料檢視與編修的困難,使用者很容易遇到在瀏覽器能夠檢視簡體網頁,一旦需要利用作業系統的複製/剪貼的功能,就會發生有些字可以順利貼上顯示,有些字會出現問號或空白字元,問題是出在該應用程式是否支援Unicode,這不僅是作業系統的問題,最難以解決的是各種現有的應用程式支援Unicode的程度不一,微軟的Windows、Office和IE雖然已經提供支援,也無法一肩扛起內碼系統紊亂的問題。

網頁簡正轉碼,我們除了注意內容的轉換是否正確,維持可讀性,很多軟體都沒有修正網頁標題(Title),以致於網頁內容即使正確,標題還是亂碼,沒有轉換到。除了轉碼之外,轉詞也是另一個亟待突破的問題,大部分廠商都會利用辭庫的方式進行比對與轉換,尤其要注意專有名詞的轉換。以「iThome電腦報」為例,這是我們的雜誌品牌,如果沒有鎖定專有名詞,就會變成「iThome」。

兩岸文件通眾多產品架構出的整體平臺,就像資安產品常呼籲全方位的防禦策略,對簡正文件內碼的檢視與轉換,也一定要做到用戶端、閘道、應用程式的解決方案,問題才能解決。

兩岸文件通的A類產品,溫普敦資訊的網站提供5種軟體試用版,我們從溫普敦資訊拿到的版本是華文館五合一,裡面集合Office、Outlook、Outlook Express、IE、HTML五種桌面應用,可以一次安裝完畢,而Access和SQL Server需要另行聯繫取得試用版。華文館五合一裡面,IE和Outlook的簡正轉換部份會嵌入到所屬應用程式,Office、Outlook和HTML屬於文件格式轉換,用獨立的應用程式呈現轉碼轉詞功能,能處理大量轉檔的批次作業。閘道端網頁轉換

用戶端簡正轉換軟體,僅能解決會使用該軟體人員的轉換問題,對企業而言,需要考量企業對外的網站內容管理,以及內部人員瀏覽簡正體網站的需求。華文館即時通Gateway能夠用閘道伺服器的方式,提供企業網站的內容簡正即時轉換,網站管理員不需修改網頁內的各種應用程式、現有資料庫格式與相關程式,以及目前網站負載平衡架構。如果我們要以傳統方式提供簡正內碼的網頁內容,所有牽涉到的網頁、網頁應用程式、資料庫、資料庫應用程式都需要重新增列調整,如果企業的網站採取分散式架構,網站內容的調整,可能需要耗費不少時間重新修改,新增檔案位置與網頁連結。另一方面,企業也無法要求企業網站的外部使用者部署簡正轉換的軟體,即時轉換閘道的設計將能夠解決以企業內容網站為中心的簡正資料檢視。即時通Gateway涵蓋企業內外部的網域,支援所有的網站伺服器,運作的原理是利用HTTP協定,在網頁需求與回應中,代理網頁執行網站伺服器的動態網頁。即時通Gateway能夠針對每一部主機與網域。即時通也有IIS版和.NET版分別處理Windows的IIS網站伺服器,前者只能處理Big-5和GB,後者增加對正體UTF-8和簡體UTF-8內碼的支援。

華文館即時通Gateway會自動偵測網頁使用者的瀏覽器是簡體中文或正體中文環境,即時顯示簡體或繁體網頁,兩岸使用者輸入的文字也能夠即時轉換成彼此電腦系統的語系,處理簡、正體的表單和資料庫。林宗源做了一個比喻,即時通Gateway像網路防火牆一樣,能夠解決資料輸出和輸入的問題,保護華文網站內容不會遭到亂碼入侵。開發工具

華文館現有產品的介面用Visual Basic開發,核心使用的COM元件是採C和C++開發的,預計3個月後會開發出Linux的版本,華文館C類已經有Java的版本,而微軟.NET未來會繼續相容COM,林宗源說他們仍在觀望情勢。

臺灣程式開發人員經常會遇到簡正體應用程式與資料庫的問題,林宗源說,在開發程式初期,如果一開始立即解決資料存取模組的內碼輸出入問題,與程式碼整合,簡正體中文的問題比較克服。如果在開發後期才打算使用,有時候因為牽涉到檔案輸出格式的問題,華文館的套裝產品無法解決,需要另行處理。文⊙李宗翰

熱門新聞

Advertisement