上期提到,早期個人電腦上的「英文文書處理三巨頭」──分別是WordStar、WordPerfect和Word,它們雖然都不具備所謂的「所見即所得」功能,但仍然可以很智慧的處理英文的折行,並適切的將文件列印在紙張的中央,因此仍然十分受歡迎,成為當時市場上熱門的軟體。
不過,它們還有一個共同的特色。
那就是,「即使它們的功能強大,能夠很正確的列印出美觀的文件,但這三套軟體在臺灣幾乎沒有人在用。」
如果這三套軟體是這麼好用,這麼方便,為何在臺灣卻沒人在用?
難道臺灣人都瞎了眼?怎麼可能?按理來說,臺灣工商業界已經開始大量使用個人電腦作為所謂的「生產力工具」,並開始採用(無論是正版還是盜版)當時美國流行的各種商用軟體(像是Lotus 123或是dBase III Plus),但文書處理三巨頭幾乎是「完全無人青睞」。
這是什麼原因?難道是因為臺灣人不做文書處理?還是因為其他商用軟體比較重視臺灣市場,有推出所謂的中文版?為何臺灣人自絕於「文書處理的主流」之外呢?
因為它們都不能處理中文
並非如此。
雖然當時很多人使用Lotus 123(試算表)和dBase III Plus(資料庫),但這兩種軟體一開始也沒有中文版,它們只是可以(很癟腳的)處理中文罷了!但其實大家用起來也是很痛苦,因為中文相關的問題很多很多。只是,它們至少可以處理中文,堪用,就勉強湊和著用吧!
但是,美國市場流行的文書處理三巨頭連「勉強湊和」都不行,是「完全」不能處理中文,所以臺灣自然也沒辦法追隨美國電腦界的流行趨勢。
當時這三套軟體不能處理中文,有下列兩個原因:
● 個人電腦的設計其實「完全」只考慮英文的使用──對於中、日、韓、阿拉伯文等亞洲語系的支援是「完全沒有」,因此雖然這些軟體可以自動折行並印出好看的英文文件,但對臺灣工商界來說這樣的用途太過侷限,大概只能用在對外商公司的文件往來吧!
● 這些文書處理軟體有些還支援特殊的繪圖模式,以達到某種程度的「更美觀」的視覺效果,但這種繪圖模式反而和中文系統「相衝」,因此這些軟體根本沒法在中文系統下運作。
中文和英文的本質差異
事實上,「中文文書處理」會這麼難搞,主要是這功能雖然十分基本,但卻觸及了兩種語言文化本質上很大很大的差異,差異大到早期的人們想不出好辦法來解決。
英文等拉丁語系的文字採用拼音構成,因此字母數量很少,組合出來的單字卻可以有無限量。雖然常用字一樣也只有三千(或是五千、七千)個字,但買一本大一點的英文辭典,10萬字的辭典也算是蠻常見的。英文字與字之間以空白隔開,而早期電腦的設計是「從裡到外」都只考慮到這種文字的表現型式。
亞洲文字完全不同,而所謂的「正體中文」又是其中最最難搞的文字系統吧!(我相信不少外國人應該會如此認為吧!)每一個字都有獨立的形、音、義,而且這形還真的是挺複雜的。常用加上次常用的字共有一萬三千多個字,而且並沒有辦法用拉丁語系的「拼字系統」簡化系統的複雜度──沒辦法,你得扎扎實實的做一個字碼系統,裡面就得包含這一萬三千多個字。
而且中文的每一個字都是一個「圖畫」,每個字都是單獨的構成,因此字與字之間可說是「個個分明」,完全不需要用空白隔開。這麼多的問題,外國人會在乎你這中文系統要怎麼設計?他們才懶得理你。
什麼是ASCII code
所以,中文系統只能用膠水和漿糊,設法「黏在」英文系統的後面,並設法活下來。且讓我說明一下,早期電腦只能處理的英文文書環境,以解釋為何中文系統會有這麼多的問題。
既然文書處理的「核心」是文字,而構成英美文字的基礎是字母,因此很久很久以前,早就存在一種標準,稱為「美國國家標準交換碼」,ASCII code,這編碼系統早就把所有英文會使用的字母、符號都編上號碼,作為資訊交換的標準。如果有興趣知道ASCII是由哪5個英文字的縮寫構成,或是這個字應該怎麼念,以及哪個編號代表哪個字母/符號,請查Wiki。我這裡要講的,是ASCII code在文書處理領域所扮演的角色。
ASCII code中,從編號0~編號127這128個空間(用16進位表示的話,是從00~7F),包含了最常見英文字母、數字、符號和控制字元。但是IBM PC提供了更大的字元空間,所以128~255這個範圍,在IBM相容PC上頭,可以顯示一些歐洲才會見到的字元或繪圖符號(像是表格的組成字元)。
但是,從0~255,無論如何放不下中文。
IBM PC支援所謂的ASCII code編碼標準,可以顯示英文文數字、符號和繪圖字元。
|
什麼是Big-5碼
假設你是個工程師,要請你「無中生有」,在「僅能處理並顯示0~255個文字/數字/符號的系統」上,硬套上一個能顯示一萬三千字以上的中文系統,你會怎麼設計?
和大多數所有「修補式」的設計一樣,Big-5碼是一個複雜、混亂且一塌糊塗的系統。但這樣的設計幾乎沒辦法怪任何人,因為當時的IBM PC僅能顯示0~255的ASCII code字碼,要套上一個中文系統,當時也只能拿剪刀和膠水修補這系統了。
所以,當時的設計是這樣的,如果文字落在ASCII的0~127(也就是16進位00~7F)的編碼區域時,中文系統會判定這是英文並繼續顯示其原先代表的字元。但一旦字元落在128以後的區域,中文系統就判斷「這是中文字」,並假設後面2-byte佔用的空間不再是兩個英文字元──而是一個中文字。比方說,16進位的A7DA就代表中文字「我」。
不過,有些軟體本來就會使用編號127以後的字元作為表格繪製,或是歐洲語文(法文、德文……)的文字處理,碰到這種情形,中文系統就會見到所謂的「亂碼」。
一直到今天,亂碼一直還是個存在的問題,只是問題比以前小多了。說穿了,這複雜的編碼系統為禍不小,但也沒有更好的辦法了。早期ASCII系統和現代中文編碼為了「共容」,修修補補弄出了一個奇怪的文字編碼系統,才會遺禍至今。
換句話說,如果你覺得電腦難用,如果你覺得「亂碼」是很奇怪的事情,那藉由這次的文章內容,我希望各位親愛的讀者將會知道,因為電腦是由「人」造的,而人造物有個特色:坑坑疤疤修修補補,先求堪用再求好用,但在這過程中有無數的修補和填充,所以總會出現並遺留各種奇怪的問題。
所以,如果你下次你再看到亂碼文件,或是各種奇怪的電腦問題,我希望各位能夠用全新的眼光去看待這所謂的「問題」──那是電腦在演化過程中的必然之「痛」,也許沒人希望這東西這麼難用,可惜這東西並不是天神所造,所以進步的過程中總是會留下一些問題,而這些問題也不會一勞永逸的解決。不僅如此,這些奇怪的問題除了「惱人」這個作用以外,甚至還有著哲學上的意圖:人造物就是人造物,總會遺留各種的問題讓你知道人造的東西永遠是不會「漸臻完美」的,人造物只會留下各種醜惡的疤痕,讓你知道「演化」所要付出的代價。
什麼是中文系統
有了Big-5編碼系統以後,中文系統就是根據這標準而設計出來的軟體。當時DOS下最有名的中文系統,分別有「倚天」、「國喬」、「文星」、「震漢」和「天龍」等等,其中最流行的應數倚天中文系統。
中文系統的運作原理大致這樣的:
● 執行後,常駐在記憶體中,並進入中文系統繪圖模式
● 掃描螢幕上的所有文字
● 如果文字落在ASCII code的0~127的範圍內,則不予理會,仍顯示原先的ASCII字元
● 如果文字落在ASCII code的後半(128~255)範圍內,則表示這兩個byte是中文字,此時就抓取所謂的「中文字型」並顯示在螢幕上
當時為何是倚天中文系統最流行呢?
當然,倚天中文系統是個穩定(相對穩定)的軟體,支援功能也多,這都有助於它的受歡迎程度。不過它那「睜一隻眼閉一隻眼」的抓盜版態度,確實有助於它的風行。
當時倚天中文系統的佔用空間,大概可以勉強塞進一張1.2MB的磁片,執行條件不高。對當時的電腦而言,跑中文系統最大的麻煩是:DOS下能運用的記憶體只有640KB,執行DOS後,本來就剩下大概590KB左右的記憶體了(被滑鼠驅動程式、DOS kernel佔用了一些),然後再跑個中文系統之後,剩下給軟體運用的大概就剩300KB左右了。這勉強夠用,但不夠順暢。
此外,受限於「螢幕能力」和「記憶體容量」兩個問題,螢幕上能顯示的中文字型是以「16×15」的點陣形式繪製。16×15大概就是「剛好能讓你看懂這是什麼字」的最小空間,畫出來的中文字型著實相當不美觀。
但這都沒關係,當時倚天公司有販售所謂的「中文卡」,只要你安裝中文卡這種硬體,螢幕就可以顯示更高解析度的24×24字型,而且字型不會佔用記憶體空間。因此有一種說法是:倚天公司對於外界的盜版不那麼積極取締(他們當然也希望全世界都使用正版軟體),主要是因為「軟體中文系統」的流行也有助於該公司「硬體中文卡」的銷售。
倚天中文系統可以判斷螢幕上的字元落在哪個範圍,並正確的顯示中文字型(雖然不太美觀),當時是十分風行的軟體。
|
本期結語:PE2問題其實很多很多,其實它真的只是堪用而已
由於所有中文系統都得使用繪圖模式,因此其他會使用繪圖模式的軟體都不能執行。此外,當時中文是所謂的「雙byte字元」,每一個中文字是由兩個byte組成,而且高byte的字元一定是落在ASCII code的編號128~255範圍。所以,你也可以說,中文字是由兩個英文字元所組成。當你沒有執行中文系統時,開啟中文文件就會看到一堆亂碼中夾雜一些英文字。亂碼其實是中文,只是只有中文系統才知道那是中文。
因此,相對而言「功能單純」的PE2,雖然功能不夠好用,但在臺灣就成為文書處理的標準了。因為,PE2至少能夠正常顯示中文。雖然PE2沒有分頁功能,折行的功能也不好用──事實上,早期根本沒有能夠正常處理中文折行的軟體,因為每一個中文都是由兩個英文字元組成,而且當時的軟體也得用「空格」當作折行的判斷依據,但是中文的字與字又沒有空格。所以,PE2的問題一堆(和Lotus 123、dBase III Plus一樣),也還是成為了文書處理的標準。
熱門新聞
2025-01-16
2025-01-15
2025-01-13
2025-01-14
2025-01-14
2025-01-13