Photo by Katrin Hauf on Unsplash

史丹福大學網路觀察站(Stanford Internet Observatory,SIO)近日針對開源資料集LAION-5B展開研究,發現該資料集存在著逾3,000筆可疑的兒童性虐待內容(Child Sexual Abuse Material,CSAM),之後LAION移除了被確認為CSAM的1,008筆相關內容。

LAION的全名是Large-scale Artificial Intelligence Open Network(大規模的人工智慧開放網路),為一德國的非營利組織,致力於開源AI模型與資料集,其資料集主要儲存文字及圖像的URL,圖像仍存放在原始網站上。Stability AI與Google都曾利用LAION資料集來訓練AI模型,提供文字生成圖像服務,SIO此次所研究的LAION-5B蒐集了全球網路上58.5億筆的圖像與圖說配對,資料量是前一代LAION-400M的14倍。

SIO同時透過PhotoDNA感知雜湊配對、密碼雜湊配對、k-近鄰(k-nearest neighbors)查詢,以及機器學習分類器來尋找LAION-5B所引用的CSAM。

這是因為一旦資料集中含有諸如CSAM等不當內容,以該資料集執行訓練的模型就有可能生成不當內容,大型開源資料集可能造成的影響還更加深遠。

在得知SIO的研究成果之後,LAION暫時下架了LAION-5B,並移除已確認的1,008筆CSAM。

Stability AI向《彭博社》(Bloomberg)表示,該公司的Stable Diffusion模型雖然仰賴LAION-5B,但採用的是經過篩選及微調過的版本。至於Google則向《404 Media》透露,該公司從未使用過LAION-5B,倒是曾經以LAION-400M訓練過首個Imagen研究模型,但該模型從未發表。

研究人員認為,有鑑於種種限制,此一研究所偵測到的CSAM應是被嚴重低估的,且除了CSAM之外,這類的資料集還存在著許多未經同意的親密影像,涉及版權及穩私問題,在理想的狀態下,它們應該僅能被應用在研究環境,而非出現於公開模型上。

熱門新聞

Advertisement