蘋果、Nvidia等公司被控未經同意使用YouTube文字內容訓練AI

媒體報導，蘋果、Nvidia、Salesforce在未經同意情況下，使用眾多新聞、教育節目及知名網紅的YouTube頻道字幕內容來訓練其AI模型。

雖然YouTube明文禁止任何人未經同意使用平臺上內容，但調查報導媒體Proofnews分析發現，YouTube平臺上4.8萬個頻道的173,536則影片的字幕遭到軟體公司未經同意用以訓練AI模型。被點名的業者包括蘋果、Nvidia、Anthropic及Salesforce等。

報導是研究一個名為YouTube字幕（YouTube Subtitles）的資料集的使用單位。這個資料集蒐集了YouTube影片的字幕，來源涵括教育、新聞、談話節目、以及知名YouTuber頻道。教育內容來自可汗學院（Khan Academy）、麻省理工學院（MIT）及哈佛大學等，新聞頻道像是華爾街日報、美國公共廣播電臺（NPR）、英國廣播公司（BBC）及談話性節目如《The Late Show with Stephen Colbert》、《Jimmy Kimmel Live》等。其他影片來源包括知名網紅MrBeast、PewDiePie、電玩評論員Jacksepticeye及科技評論YouTuber Marques Brownlee頻道、地平理論派的YouTube頻道，以及一些知名政治人物的個人頻道。

事實上，「YouTube字幕」是由一個推動AI的自願非營利組織EleutherAI所編輯，名為《The Pile》的資料集的一部分。Pile旨在蒐集公開來源的文字，供AI學術研究使用，如英文版Wikipedia、歐洲議會法律資料、GitHub、PubMed Abstracts、OpenWebText2等資料庫。而「YouTube字幕」單純蒐集了教育類、流行文化和自然對話的YouTube字幕，不包含影片和圖片，也提供多語言文字，如日文、德文和阿拉伯文。

報導指出，蘋果訓練OpenELM、Nvidia訓練Nemo Megatron、Anthropic的Claude都有用到YouTube字幕，而彭博及Databricks訓練的Dolly則使用了《The Pile》資料集。

不過Anthropic指稱，這些資料是公開可用的，使用來訓練AI並無爭議。其他業者則拒絕或沒有評論。

大廠使用網路上公開資料不再被視為毫無問題。GitHub和Reddit對其內容被用來訓練AI已經表達不滿，後者已和OpenAI簽下付費授權合約。微軟剛上任的AI主管Mustafa Suleyman上個月也因為在訪談時提及複製、重製網路上文字是合理使用，沒有版權問題而遭到抨擊。

熱門新聞