為解決從公開網站上掠取資料的隱私與智財權爭議,OpenAI本周一釋出網頁爬蟲技術GPTBot,以更透明方式蒐集公開網頁資料來訓練其AI模型。

OpenAI指出,GPTBot以明白的user agent token(GPTBot)及完整字串(Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; GPTBot/1.0; +https://openai.com/gptbot)表明它是來自OpenAI。

OpenAI表示,以GPTBot user agent抓取的網頁資料可能會用於改良未來模型,過程中會篩選掉需要付費的來源,但其中仍可能包含可辨識身份的資訊,或是違反OpenAI政策的文字。

若網站管理員允許GPTBot存取網站,將可協助改進AI模型的精確度,提升其能力及安全。但若網站管理員不希望其網站被蒐集資料,OpenAI也提供了拒絕的方法說明。包括在網站robots.txt檔案中加入GPTBot(如圖),也可以自訂GPTBot存取網站部份內容(如圖)。此外,OpenAI也公布GPTBot使用(https://openai.com/gptbot-ranges.txt)的IP位址範圍,方便網站辨識與封鎖。

此類透明化措施可說是OpenAI對媒體或內容網站對AI模型業者未經同意蒐集資料的批評的回應。現在普遍認為,業者未經同意蒐集公開網站的內容來訓練自己的AI模型,侵犯了智財權、隱私權;他們應該要提供opt-in或opt-out選項,讓網站或資料持有人決定是不是要提供自己網站上的內容。

上周募資平臺Kickstarter也頒布一項AI相關規定,其中一項規定是若新創專案使用了外部資料來源,應出具來源網站的許可政策及同意證明。無法提供的專案則無法通過審核在Kickstarter上架。

而本周OpenAI預計也將有大改版,包括ChatGPT底層將升級為GPT-4,而外掛Code Interpreter也將支援上傳多個檔案到提示中。

熱門新聞

Advertisement