媒體報導,蘋果、Nvidia、Salesforce在未經同意情況下,使用眾多新聞、教育節目及知名網紅的YouTube頻道字幕內容來訓練其AI模型。

雖然YouTube明文禁止任何人未經同意使用平臺上內容,但調查報導媒體Proofnews分析發現,YouTube平臺上4.8萬個頻道的173,536則影片的字幕遭到軟體公司未經同意用以訓練AI模型。被點名的業者包括蘋果、Nvidia、Anthropic及Salesforce等。

報導是研究一個名為YouTube字幕(YouTube Subtitles)的資料集的使用單位。這個資料集蒐集了YouTube影片的字幕,來源涵括教育、新聞、談話節目、以及知名YouTuber頻道。教育內容來自可汗學院(Khan Academy)、麻省理工學院(MIT)及哈佛大學等,新聞頻道像是華爾街日報、美國公共廣播電臺(NPR)、英國廣播公司(BBC)及談話性節目如《The Late Show with Stephen Colbert》、《Jimmy Kimmel Live》等。其他影片來源包括知名網紅MrBeast、PewDiePie、電玩評論員Jacksepticeye及科技評論YouTuber Marques Brownlee頻道、地平理論派的YouTube頻道,以及一些知名政治人物的個人頻道。

事實上,「YouTube字幕」是由一個推動AI的自願非營利組織EleutherAI所編輯,名為《The Pile》的資料集的一部分。Pile旨在蒐集公開來源的文字,供AI學術研究使用,如英文版Wikipedia、歐洲議會法律資料、GitHub、PubMed Abstracts、OpenWebText2等資料庫。而「YouTube字幕」單純蒐集了教育類、流行文化和自然對話的YouTube字幕,不包含影片和圖片,也提供多語言文字,如日文、德文和阿拉伯文。

報導指出,蘋果訓練OpenELMNvidia訓練Nemo Megatron、Anthropic的Claude都有用到YouTube字幕,而彭博及Databricks訓練的Dolly則使用了《The Pile》資料集。

不過Anthropic指稱,這些資料是公開可用的,使用來訓練AI並無爭議。其他業者則拒絕或沒有評論。

大廠使用網路上公開資料不再被視為毫無問題。GitHub和Reddit對其內容被用來訓練AI已經表達不滿,後者已和OpenAI簽下付費授權合約。微軟剛上任的AI主管Mustafa Suleyman上個月也因為在訪談時提及複製、重製網路上文字是合理使用,沒有版權問題而遭到抨擊。

熱門新聞

Advertisement