提升巨量資料搜尋效能與網頁擷取機制,整合LDAP帳戶管理
新版InfoGates重新設計管理與使用介面,先前操作功能完全以橫列項目為主,主從功能全部擠在網頁上緣,而現在細部管理功能改置放於網頁介面左側。使用者一樣以透過網頁瀏覽器,能快速找到分散的Office、PDF、純文字檔等類型的文件檔案與網頁資料,且支援關聯式資料庫、Lotus Notes/Domino、微軟Exchange等系統作為資訊搜尋資料來源。文件全文檢索方面,增加Visio、RTF與AutoCAD等檔案格式的支援, InfoGates也支援LDAP帳戶與權限資訊同步功能。
與一般知識管理產品相比,InfoGates著重在資訊搜尋,提供Java、 COM、DLL、LIB等多種形態的應用程式介面(API),處理查詢、索引管理與身分認證,產品與知識管理廠商合作,本身不提供資訊審核、知識地圖、主題分類、專家知識、社群分享等功能。支援大量資料源檢索與漸進式索引
系統提供大量資料彈性索引機制,以提高在巨量資料的關聯式資料庫的資料擷取與多維度搜尋效能。
InfoGates採用反轉索引檔(Inverted index)的資料結構,在大量資料查詢時,加速系統查詢與回應速度,稱為細質索引(fine-grained index)技術。當系統建立索引檔時,會透過token的形式記錄系統收集到的檔案列表,並且記錄每個token在檔案內容中出現的實際位置(byte offset),處理複雜的查詢字串或大量的資料時,即可在很短的時間內利用索引檔內的現有資訊計算出符合的結果。
透過ODBC與JDBC等資料存取介面,InfoGates提供跨資料表與跨欄位的索引,增加欄位檢索與日期範圍等搜尋條件,資料篩選也支援以SQL語法設定條件式索引。新版還能建立資料庫附加檔案的索引,提供附檔的查詢功能,並且強化Oracle資料庫的BLOB 與CLOB資料型態欄位的索引建立與查詢。
假如資料內容異動時,往往需重新建立索引,InfoGates提供漸進式索引(Incremental Index),排程中系統僅針對異動過的資料重建索引,加速索引更新,節省重建時間。支援多種網頁擷取機制
InfoGates能夠擷取的網頁類型很多,例如HTTPS網頁、NTLM 整合式認證網頁、需驗證身分的網頁、iframe內套框架(In-line Frame)網頁、動態網頁等特殊網頁,並且支援Proxy Server 設定、跨站抓取(cross-site fetch)、robots規範等。系統也能自動去除重複網頁,以及忽略網頁中的JavaScript、VBScript、CSS 及HTML標籤內的內容,減少非必要資料佔用索引檔容量,讓查詢結果更精簡。如果還是遇到無法擷取內容的網站,用戶可能要請原廠協助系統微調。
網頁擷取有時候會收集到侵犯他人權益的網站內容,InfoGates支援SRE(Standard for Robot Exclusion)標準,大部分網站都會以這套協定防止網站內的敏感資料被離線瀏覽器或WWW Robot模擬使用者瀏覽的工具下載,管理者可以選擇是否遵守SRE標準,避免擷取該網站內非公開的資料。整合LDAP,強化分散式查詢
在系統使用者帳號管理與匯入,InfoGates可使用XML格式的檔案匯入大量使用者資料,匯出功能將不會保留使用者密碼。系統透過標準的LDAP 協定,也能將目錄服務中的使用者帳號權限同步至系統內,讓使用者查詢到權限對應範圍內的資料。帳號同步後,所有使用者將自動歸類於一般使用者,如果需要調整為索引管理者或進階使用者,須由系統管理者手動指派。
新版在處理效能的提升,支援多部伺服器的同時連接,以達到分散負載的效果。透過伺服器雙方確認「給予授權」與「取得授權」後,即可雙向連線,相互查詢資料,完成分散式管理架構。系統將遠端伺服器上開放的索引庫加入InfoGates查詢清單中,使用者可透過單一伺服器與查詢介面,查詢到分公司或駐點的InfoGates系統資料,共享同一分虛擬檢索目錄,並且由分散的伺服器各自獨立處理本身的資料更新與索引建立的工作,應付資料量龐大或分散各地的大型企業。文⊙李宗翰
熱門新聞
2024-12-16
2024-12-16
2024-12-17
2024-11-29