LAION-5B資料集被爆含有兒童性虐待內容

史丹福大學網路觀察站（Stanford Internet Observatory，SIO）近日針對開源資料集LAION-5B展開研究，發現該資料集存在著逾3,000筆可疑的兒童性虐待內容（Child Sexual Abuse Material，CSAM），之後LAION移除了被確認為CSAM的1,008筆相關內容。

LAION的全名是Large-scale Artificial Intelligence Open Network（大規模的人工智慧開放網路），為一德國的非營利組織，致力於開源AI模型與資料集，其資料集主要儲存文字及圖像的URL，圖像仍存放在原始網站上。Stability AI與Google都曾利用LAION資料集來訓練AI模型，提供文字生成圖像服務，SIO此次所研究的LAION-5B蒐集了全球網路上58.5億筆的圖像與圖說配對，資料量是前一代LAION-400M的14倍。

SIO同時透過PhotoDNA感知雜湊配對、密碼雜湊配對、k-近鄰（k-nearest neighbors）查詢，以及機器學習分類器來尋找LAION-5B所引用的CSAM。

這是因為一旦資料集中含有諸如CSAM等不當內容，以該資料集執行訓練的模型就有可能生成不當內容，大型開源資料集可能造成的影響還更加深遠。

在得知SIO的研究成果之後，LAION暫時下架了LAION-5B，並移除已確認的1,008筆CSAM。

Stability AI向《彭博社》（Bloomberg）表示，該公司的Stable Diffusion模型雖然仰賴LAION-5B，但採用的是經過篩選及微調過的版本。至於Google則向《404 Media》透露，該公司從未使用過LAION-5B，倒是曾經以LAION-400M訓練過首個Imagen研究模型，但該模型從未發表。

研究人員認為，有鑑於種種限制，此一研究所偵測到的CSAM應是被嚴重低估的，且除了CSAM之外，這類的資料集還存在著許多未經同意的親密影像，涉及版權及穩私問題，在理想的狀態下，它們應該僅能被應用在研究環境，而非出現於公開模型上。

熱門新聞