小心！別讓搜尋引擎洩露企業不當資訊

搜尋引擎功能越來越強大，企業網站內容遭不當曝光的機率也越來越高，當網路蜘蛛盡其可能深入挖掘與回傳網站資訊之際，必須在網站維護與內容規劃上具備妥善對策，才能避免重要資料外洩。

小張是一家網路購物公司的MIS，才剛進辦公室，就接到客服部門主管氣急敗壞的電話，原來有會員客訴登錄在網站的聯絡資訊，居然被庫存在Google的網頁上。小張忙將會員姓名輸入Google查詢，果不其然出現公司會員查詢的頁面，這時換小張坐立不安了。會員查詢程式是用PHP撰寫，又不是靜態頁面，怎麼會被搜尋引擎庫存？而且庫存的頁面僅供內部人員使用，需要輸入密碼才能進入，搜尋引擎居然可以抓得到。除了會員資訊，會不會還有其他內部程式被編入索引，可以任意查詢檢視呢？

搜尋引擎能為企業帶來絕佳的宣傳效果，透過幾個關鍵字的引導，人潮流量便會尋線而來，搜尋引擎的排序與關鍵字也因此搖身一變成商品販售。然而「水可以載舟，亦可以覆舟」，搜尋引擎雖然為企業網站增加曝光度，但強大的搜尋技術卻也讓企業不想曝光的網站弱點與機密資訊一一現形，造成駭客攻擊的索引指南或內部資料外洩，對於搜尋引擎的應對之道，企業不可不慎。

駭客利用搜尋引擎獵取網站資訊

駭客利用搜尋引擎獵補網站已經不算新聞，然而方法之簡單，獲得訊息之多，還真令人瞠目結舌。以Google為例，駭客經常利用filetype、inurl、intitle、intext等參數搭配關鍵字，搜尋網路上不設防的網站，獲得所需資訊，或者尋找系統資訊及弱點加以攻擊。

搜尋引擎不當曝露或庫存網站內容

駭客會攻擊網站伺服器，也可能藉此竊取企業資料，雖然危險性高，但以機率而言，遠小於另一種搜尋引擎可能造成企業資訊外洩的方式。搜尋引擎利用網路蜘蛛遊走網頁，並下載頁面庫存在資料庫中，以增加查詢、檢閱速度。如果網站伺服器在安全上規劃不當，或者是機密資訊的存取讓網路蜘蛛有機可趁，這種情況下不用駭客親臨，企業重要資料就有可能外洩。

網路蜘蛛可用robots.txt限制活動範圍

網路蜘蛛是搜尋引擎用來自動搜集資訊的程式，對它而言，網站上的內容不分機密與否，只要有路可進，它就會登臨造訪，並且將內容回傳搜尋業者的資料庫。網路蜘蛛也可稱為機器人（bot）或代理人（agent），從某個角度來說，這些程式如同平常文書處理軟體的巨集功能一樣，重覆執行一連串的命令和動作，差別在於它的動作是一再搜索網頁頁面與發掘連結，並從中擷取資訊。

良好網站維護及制定存取規範，可降低資訊外洩風險

以我們的案例小張來說，他亡羊補牢的辦法，是先將所有管理程式都加上密碼驗證，然後利用robots.txt規範管理程式的目錄禁止網路蜘蛛進入，最後再與利用Google的通報機制，將庫存頁面拿下，才解決這場危機。

網站不當庫存處理三部曲－以網擎資訊為例

Openfind在處理搜尋引擎不當庫存情形中，以過期資訊和錯誤資訊兩類最常出現。例如曾發生銀行在網站上公告優惠利率活動，活動期間被搜尋引擎庫存，結束後雖然已將頁面移除，但使用者仍能在搜尋引擎中查詢到活動資訊，而使客戶誤以為仍能申辦，引發不必要的誤會與糾紛。另外，企業對於網站上的資訊在把關上經常不如平面資訊嚴謹，例如有錯誤或不當的訊息發佈之後，適逢網路蜘蛛上門，就會留存一份下來。一般網站管理人員遇到這種情況，應變的方式往往會換上正確的頁面以取代錯誤內容，然而如果檔名不同，網路蜘蛛會誤以為是不同的頁面，反而造成正確和錯誤的頁面都被庫存的情形。

相關文章：
實戰設計robots.txt與標籤駭客利用搜尋引擎獵取網站資訊

駭客利用搜尋引擎獵補網站已經不算新聞，然而方法之簡單，獲得訊息之多，還真令人瞠目結舌。以Google為例，駭客經常利用filetype、inurl、intitle、intext等參數搭配關鍵字，搜尋網路上不設防的網站，獲得所需資訊，或者尋找系統資訊及弱點加以攻擊。例如以「filetype:pwd service」這組搜尋關鍵字，便會列出許多Frontpage的使用者名稱及密碼，雖然密碼經過加密，但是密碼如果太短或組成原則簡單的方式，網路上隨手可得的密碼破解軟體即可在極短時間破解。又如「inurl:password.txt」也可以找到轉存在文字檔中的密碼。

此外，如果網站伺服器設定不當，網路蜘蛛（spider）也可將網站目錄結構抓取出來，造成任何人都可以透過目錄存取檔案，萬一其中包含帳號、密碼或內部人員使用的網頁，則企業機密形同門戶洞開。使用「Index of /admin」這組關鍵字，可以找到這些對外開啟目錄，而置admin目錄底下的檔案，通常與網站管理相關，其風險可想而知。

另外駭客也會以搜尋引擎尋找網站伺服器的資訊，再利用已知的弱點進行攻擊，如果網站管理人員沒有更新弱點的修補程式，很容易就淪為駭客的攻擊目標。早期IIS網站伺服器弱點頻傳，駭客往往便利用「Welcome to IIS 4.0」搜尋使用IIS網站，再利用弱點輕易攻下一城。

相關文章：
實戰設計robots.txt與標籤搜尋引擎不當曝露或庫存網站內容

駭客會攻擊網站伺服器，也可能藉此竊取企業資料，雖然危險性高，但以機率而言，遠小於另一種搜尋引擎可能造成企業資訊外洩的方式。搜尋引擎利用網路蜘蛛遊走網頁，並下載頁面庫存在資料庫中，以增加查詢、檢閱速度。如果網站伺服器在安全上規劃不當，或者是機密資訊的存取讓網路蜘蛛有機可趁，這種情況下不用駭客親臨，企業重要資料就有可能外洩。

以小張面臨會員資料外洩的情況為例，會員列表程式之所以會被庫存，原因出在驗證機制上。雖然進入會員列表的管理畫面需要經過驗證，但是通過把關森嚴的大門之後，裡面所有程式就沒有再做驗證查核的動作，因此當網路蜘蛛透過別的管道，例如對網路伺服器要求目錄結構，並依此方式進入，就可以庫存管理程式，一旦有使用者在搜尋網頁時恰巧進入管理頁面，就可以任意處理內部資料。

另外，小張對於搜尋引擎的運作方式存有迷思，通常為了增加被搜尋引擎建立索引的機率，一般都建議使用靜態網頁，因此小張便誤以為像PHP、ASP這種即時從資料庫撈取資料生成的網頁不容易被搜尋，然而連結就像是蜘蛛絲一般，只要連結得到的資料，網路蜘蛛便能沿絲而至。

除了因為程式設計不當，讓網路蜘蛛可以趁隙而入之外，有些情況是涉及內容管理，例如某些網站提供收費的內容，卻得以透過搜尋引擎的頁面庫存免費瀏覽，或是原本應該要填寫資料才能下載的檔案或文件，使用者將搜尋引擎當作跳板，取得庫存檔案。也有一些企業過期的資訊留存在網站中，而客戶誤將舊資料當作是新資訊，造成交易上的困擾或紛爭。也曾有企業不慎發佈錯誤訊息，卻被庫存在搜尋引擎中，即使將頁面撤下，在網路上查詢的仍然是錯誤版本。凡此種種，有些會造成企業機密資訊外洩，有些造成經營上的糾紛，都將使企業付出額外的成本。

相關文章：
實戰設計robots.txt與標籤網路蜘蛛可用robots.txt限制活動範圍

網路蜘蛛是搜尋引擎用來自動搜集資訊的程式，對它而言，網站上的內容不分機密與否，只要有路可進，它就會登臨造訪，並且將內容回傳搜尋業者的資料庫。網路蜘蛛也可稱為機器人（bot）或代理人（agent），從某個角度來說，這些程式如同平常文書處理軟體的巨集功能一樣，重覆執行一連串的命令和動作，差別在於它的動作是一再搜索網頁頁面與發掘連結，並從中擷取資訊。

早期某些搜尋業者的網路蜘蛛在使用者查詢時，會即時攀爬網站，比對使用者輸入的關鍵字而得到結果。但隨著網站與日俱增，搜尋業者轉而利用大型資料庫來存放網站的關鍵字及相關資訊。而容納龐大網際網路的網站和目錄資訊，如果全由人工去處理幾乎是不可能而且缺乏效率的事，因此重複檢測網站與連結狀況的工作，便由網路蜘蛛來進行，以維護資料庫內容的正確性。

當網路蜘蛛掃描網站時，通常從一個或多個網站開始，它會掃描頁面中的連結並記錄，透過鎖定網頁HTML語法中的HREF標籤，抓取尾隨其後的網址連結，並比對後端資料庫，檢查是否有新的連結產生，以及是否有斷裂、失效的連結。如有新的頁面則使用佇列（Queue）暫存，待稍後可進一步比對。

網路蜘蛛比對網頁內容後，如果檔名相同，但內容有異，即會將新的內容回傳更新。當它掃描完目前網站的連結時，便會開始嘗試連結到其他網站，並重複執行連結、頁面查驗、回傳動作。由於網站利用連結彼此串連的情形極為普遍，網路蜘蛛便會盡可能周遊所有網站，但也因為每天都有新的網站誕生與消失，網路蜘蛛必須隨時追著變化，以維持搜尋結果的可靠性。每家搜尋業者對網路蜘蛛的工作方式會有不同的權重判斷，因此造訪網站的頻率與更新速度也會依網站屬性而有不同，至於庫存的原則、檔案的類型也都有不同的方式。

只要有網路蜘蛛，網頁很難成為孤島，這種不請自來的特性，除了致使企業有不當資訊外洩的風險，有時也會造成網頁伺服器的負擔，例如短時間內不斷且大量擷取資料，而使伺服器服務品質變差。因此在1994年產生網路蜘蛛排除協定，讓網站管理人員可以制定robots.txt文件，在當中規範網路蜘蛛能夠存取的範圍與檔案類型，以保障網站的資訊安全與正常運作。除了robots.txt，在HTML網頁中的語法屬性裡，設定是否讓網路蜘蛛索引、庫存或連結出去等，讓網站管理人員在管理網站內容更具彈性，而大多數搜尋引擎的網路蜘蛛也都會依循這兩個「告知」來行動。

網路蛛蜘除了有「品牌」上的差異，搜尋網站公司為了增加搜尋效率，會針對特定用途使用不同代理程式，例如Google有專門搜尋圖片的網路蜘蛛，Yahoo更有多樣化的搜尋程式，例如針對國別、多媒體、部落格等不同搜尋目的網路蜘蛛。不同的網路蜘蛛會使用不同的識別名稱（robot identifier），網站管理人員可以利用識別名稱設限網路蜘蛛的探索行為，確保出現在搜尋結果的內容都是正確無虞。

相關文章：
實戰設計robots.txt與標籤良好網站維護及制定存取規範，可降低資訊外洩風險

以我們的案例小張來說，他亡羊補牢的辦法，是先將所有管理程式都加上密碼驗證，然後利用robots.txt規範管理程式的目錄禁止網路蜘蛛進入，最後再與利用Google的通報機制，將庫存頁面拿下，才解決這場危機。

目前搜尋引擎業者在通報機制上腳步不一，這是有待改善之處，例如Yahoo奇摩雖然提供語法移除的教學，但沒有明確提供快速移除的機制、Openfind則有提供電子郵件讓使用者通報處理。目前處理機制最為完善的還是Google，除了提供回報機制外，也有進度查詢。

通報機制之所以重要，是因為不管使用robots.txt或語法，都無法更改之後就馬上收到效果，網路蜘蛛搜尋網站有它的週期性與所需時間，更改效果必須等到下次網路蜘蛛上門才會讀取robots.txt或的內容並回報搜尋引擎，由於資料曝光或不當庫存的情節可輕可重，如果事屬嚴重，只有少數幾家及時處理，其他搜尋引擎仍然看得到，依然於事無補。

總結來說，如要避免搜尋引擎帶來的風險，在網站伺服器的安全性維護是第一關，例如修補程式的更新、設定目錄隱藏等，以避免駭客有機可趁。其次是網頁程式設計上要做好驗證把關，萬一被庫存時，仍可避免惡意人士長驅直入。最後在內容管控上，使用robots.txt或這些和網路蜘蛛溝通的語法，就能避免不當資訊外洩的風險。文⊙黃天賜

相關文章：
實戰設計robots.txt與標籤網站不當庫存處理三部曲－以網擎資訊為例

Openfind在處理搜尋引擎不當庫存情形中，以過期資訊和錯誤資訊兩類最常出現。例如曾發生銀行在網站上公告優惠利率活動，活動期間被搜尋引擎庫存，結束後雖然已將頁面移除，但使用者仍能在搜尋引擎中查詢到活動資訊，而使客戶誤以為仍能申辦，引發不必要的誤會與糾紛。另外，企業對於網站上的資訊在把關上經常不如平面資訊嚴謹，例如有錯誤或不當的訊息發佈之後，適逢網路蜘蛛上門，就會留存一份下來。一般網站管理人員遇到這種情況，應變的方式往往會換上正確的頁面以取代錯誤內容，然而如果檔名不同，網路蜘蛛會誤以為是不同的頁面，反而造成正確和錯誤的頁面都被庫存的情形。

網擎資訊搜尋產品線經理洪偉綱表示，對於過期資訊的處理辦法，首先要在活動頁面中標示活動期限的習慣，萬一頁面被庫存，也不致於會有客戶誤以為還適用。其次，過期的網頁最好不要留存在網站中，有些網站人員為了日後能重複利用，或者是沒有移除的習慣，而將過期頁面留在網站中，除了增加不當庫存的機會，長久下來也會對網站管理造成負擔，因此最好的做法是別將過期資訊留在網站上。

處理錯誤訊息被庫存的方法，首要的步驟是將錯誤頁移除下線，其次用特定的公告頁面替換原來的頁面，最後通知搜尋業者進行處理。由於網路蜘蛛在判讀檔案時會對同一檔名的內容進行比對，當內容不一致時會以較新的檔案取代舊的內容，因此同檔名不同的內容才能解決問題，直接以不同檔名的檔案取代舊檔，反而會造成正確和錯誤檔案並存的情況。

每個搜尋業者網路蜘蛛抓取資料的周期不一，洪偉綱指出亞洲區的更新時間一般是在兩週到一個月左右，每家業者也會根據網站屬性及權重，設定蜘蛛造訪的頻率。如果企業發生不當庫存的事件，除了先將網站應該先更新頁面或者robots.txt與META標籤設定好後，並盡快與業者聯繫，讓企業的損失或困擾降低到最小。文⊙黃天賜

相關文章：
實戰設計robots.txt與標籤

熱門新聞