Google於本周釋出了Google-Extended工具,以讓網頁出版商得以決定該站內容是否願意用來改善Bard及Vertex AI的生成式模型,出版商只要透過robots.txt即可啟用該工具。

有許多業者都是利用公開的網路資料來訓練模型,例如OpenAI的GPT,OpenAI打造了網路爬蟲軟體GPTBot以廣泛地蒐集網路上的資料,並用來訓練模型,而當出版商不同意時,便於robots.txt中直接封鎖這些爬蟲,例如《紐約時報》、《CNN》與《Medium》即封鎖了GPTBot。

然而,出版商無法直接封鎖來自Google的爬蟲軟體,因為這可能會直接影響網站於Google搜尋結果中的能見度,為此,Google特別設計了Google-Extended供出版商使用。Google-Extended是個獨立的產品標記,讓網頁出版商得以用來決定其網站是否願意協助改善Bard及Vertex AI等生成式AI,或是未來由這些產品衍生的生成式模型。

Google認為,於robots.txt中提供一個簡單且可擴充的功能,是提供透明度與控制能力的重要步驟,相信所有AI模型的供應商都應該具備。

熱門新聞

Advertisement