「丹青4.0」從單純的文字辨識進入「文件」辨識階段,會自動區分文件上的圖或文,不須將每個區塊作各別的設定,可準確辨認彩色、黑白、直排、橫排、表格、背景色等,辨識後的文件可直接在小作家、Word、Excel等應用軟體中編輯,甚至可以轉換成HTML格式。

力新國際將在10月底推出新版的光學辨識軟體「丹青4.0」,「丹青4.0」在技術上作了大幅度的突破,改進許多以往使用光學辨識軟體的不便,並與網際網路及文書處理應用軟體結合,擴大光學辨識軟體的應用領域。

光學字元辨識(Optical Character Recognition,OCR)技術在拉丁語系文字中已相當成熟,相較之下,由於東方語系文字較為複雜,在OCR技術發展上進展較慢,過去如橫排/直排、表格、背景網紋、字體等問題不容易克服,使OCR技術在實用上仍存在許多不便。

力新國際研究發展處資深經理藍志信表示,過去因為OCR技術強調在文字辨識,因此對辨識環境的要求較高,彈性也較小,「丹青4.0」則在技術上作了相當大的改進,從單純的文字辨識進入「文件」辨識階段,也就是將圖形一併列入考量,眼睛看到的文件就是辨識出的文件樣子,因此不論圖形、文字、背景都可以一次分析處理完畢。

「丹青4.0」會自動區份文件上的圖或文,不必如同過去一樣須將每個區塊作各別的設定,因此不論是彩色、黑白、直排、橫排、表格、背景色等,都可以準確的辨認出來,可同時處理繁體中文、簡體中文、英文及阿拉伯數字,能辨識的字體包括明體、黑體、仿宋體、楷書、圓體、隸書等6種,如果原先系統中已有這6種字體,「丹青4.0」會自動採用最近似的字體。

此外,「丹青4.0」另一個特色是和網際網路及常用的文書處理軟體結合,辨識後的文件可儲存成TXT、RTF、DOC、XLS、SLK、CSV等各種檔案格式,也就是可以直接在小作家、Word、Excel等應用軟體中編輯,甚至可以轉換成HTML格式,直接透過瀏覽器讀取,大部分圖、文的相對位置都能準確的顯示。而「丹青4.0」的操作介面,乍看之下幾乎就是一個瀏覽器。

藍志信指出,「丹青4.0」在純文字稿的辨識率可達99%以上,如果文件較複雜,如有圖、表格、背景色等,辨識率也可達到97.5%以上,在Pentium 300 MMX配備的個人電腦上,每分鐘可辨識的中文字達150個,可一次處理多達50頁的文稿。

「丹青4.0」預計在10月底可上市,建議售價新台幣6950元,競爭升級版建議售價新台幣4990元,教育版售價則為3490元。

熱門新聞

Advertisement