Google內部文件外洩，搜尋引擎運作細節引猜疑

圖片來源:

Photo by Karollyne Videira Hubert on Unsplash

近期網路上流傳一份Google內部描述搜尋引擎運作細節的API文件，在一段時間的沉默後，Google終於發出聲明，警告外界不要根據缺乏脈絡與不完整的資訊，對搜尋做出不準確的假設，並強調他們已經分享了大量搜尋運作的方式，同時也致力於保護搜尋結果不被操縱。

之所以該文件引起搜尋引擎最佳化（SEO）專家的注意與興趣，是因為其中描述的細節與Google過去公開聲明的資訊相矛盾，包括不使用網域權重、不使用點擊評份以及沒有使用沙箱等。

Sparktoro共同創辦人Rand Fishkin在5月初的時候收到了一份匿名寄送的信件，內容是一份Google搜尋部門內部的API文件，而這份文件經過前Google員工、iPullRank執行長同時也是SEO專家的Mike King檢視，初步認定可信度極高，再加上Google最新的聲明，更間接證實了該份文件確實來自Google。

Google遭洩漏的API文件超過2,500頁，涵蓋2,596個模組14,014項屬性，Mike King指出，這份文件的內容與不少Google過去所公開的搜尋規則相矛盾，他認為，Google的發言人從系統運作方面誤導SEO工程師，以及潛在的垃圾郵件發送者，使得外界無法得知影響尋引擎的方法。

Mike King提及數項文件與Google公開宣稱不符的資訊，包括Google曾經多次說過，Google搜尋不使用網域權重，但是文件中載明有一個稱為siteAuthority的指標，用於評估網站權重，siteAuthority指標存在於Google的Compressed Quality Signals中，並在Q*排名系統中使用，而這項資料與Google官方聲明相矛盾。

Google官方過去也否認使用點擊資料進行排名，但是Google搜尋中的NavBoost系統顯示，Google確實使用不良點擊、良好點擊和最後的長點擊（Long Click）行為作為排名演算法的一部分指標。不只如此，官方多次否定的沙箱機制，在文件中的PerDocData模組，顯示出確實存在一個hostAge屬性，Mike King指出，Google在某些情況下會根據網站年齡和缺乏信任的訊號，來對網站進行隔離處理。

另外，Google也多次對外宣稱不使用Chrome資料作為搜尋的一部分，但是Mike King根據洩露的文件表示，Google確實使用了Chrome資料，來自Chrome存取的資料被用於即時增強訊號的一部分，用於提升搜尋結果的品質和相關性。

不過值得注意的是，Mike King指出，雖然有許多Google搜尋用到的特徵被揭露出來，但是從文件中，目前還無法看出各特徵在下游的評分函式權重，因此也不確定這些特徵具體使用方式。不過，由於該文件洩漏了2024年3月Google搜尋內容儲存的現行架構，以及相關程式碼提交歷史，證明這份資料是新資訊。

熱門新聞