一般而言,中文關鍵詞產生器利用程式可在短時間內找出文章中關鍵詞或索引詞,而自動分類器則是為了更龐大的資料量而設計的;在現階段網際網路及企業電子化趨勢的牽引下,中文字關鍵詞產生器及分類產生器剛好搭上中文搜尋系統及辦公室自動化的列車,成為不可或缺的技術之一。

由交通大學資訊科學系副教授梁婷帶領的資料擷取實驗室,專注多媒體資料庫設計、科學影像資料庫設計及Cross-language文件處理。其中,已有相當研究成果的技術包括了中文關鍵詞及分類產生器。

一般而言,中文關鍵詞產生器利用程式,可在短時間內找出文章中關鍵詞或索引詞;而自動分類器則是為了更龐大的資料量而設計的。梁婷表示,由於分類產生器所產生的分類項目不一定與文章中的文字相吻合,因此必須要設計出能夠符合文章訊息的內涵分類搜尋系統,而不僅著重在文字的相似度。

在現階段網際網路及企業電子化趨勢的牽引下,中文字關鍵詞產生器及分類產生器剛好搭上中文搜尋系統及辦公室自動化的列車,成為不可或缺的技術之一。

目前在網際網路上,使用最多分類技術的為搜尋網站,即所謂的Portal Site,不過,有些搜尋網站仍以人工分類,人工分類最大的優點是可將每個類別分得較精確,缺點則是需要龐大的人力資源以及時間。

梁婷指出,人工分類還有可能因為人的因素,而流於分類的不客觀;而利用人工智慧所設計的分類及關鍵字產生器則可擁有快速及精簡人力的優點,但其準確度當然比不上人力鍵入關鍵字或進行分類。

梁婷認為,在電子化時代中,利用文件摘要來進行自動分類,在文件處理上是蠻重要的一件事,包括公司的會議資料、法規抑或是圖書館的資料,都需要利用自動檢索及分類系統使其能夠快速地建立電子文件資料庫。

梁婷指出,分類器必須要有具大的語料庫來進行測試,並且要具備學習的功能,在美國即有單位提供龐大的語料庫,供各界進行分類測試,這是台灣目前還欠缺的。

資料擷取實驗室目前正在進行多媒體檢索系統的設計,包括文件中的靜態圖片以及動態的影像檔(Video)等,梁婷表示,在動態影像檔的部份,他們朝著如何擷取關鍵畫面的方向前進,以監視器為例,可設計只針對突發的事件進行錄影,它將可以節省大量的儲存空間;倘若用在醫學的血液系統內,便可以進行人體血液的流量分析。

熱門新聞

Advertisement