Meta發布可同時從影像、聲音和文字學習的AI模型Data2vec 2.0，訓練更快更有效率

Meta在早前發布了Data2vec模型，這是同時以同一方式學習三種不同模式，分別為語音、影像和文字的高效能自我監督演算法，而Meta現在釋出Data2vec 2.0，這個新的演算法更快更有效率，速度達當前熱門電腦視覺自我監督演算法的16倍。

官方提到，近期人工智慧技術的突破，都是採取自我監督式學習，但是當前演算法有幾個明顯的限制，包括通常只能用於單一模式，像是圖像或文字，並且需要大量的運算能力。這顯然與人類的學習方式不同，人類的學習效率更高，並且習慣從不同類型的資訊中學習，而不僅仰賴文字、語音或其他單獨的學習機制。

Data2vec演算法便是Meta在這方面的突破，使得文字理解等技術更容易應用在圖像分割或是語音翻譯等應用，而Data2vec 2.0新演算則是朝這個目標更進一步，效率大幅提升，在能夠以16倍的速度，達成與現有熱門電腦視覺自我監督演算法相同準確度。

研究人員解釋，自我監督學習的想法，是讓電腦藉由簡單地觀察世界，來學習圖像、語音和文字結構，而這產生了諸如語音模型Wav2vec 2.0、電腦視覺模型MAE，以及用於自然語言處理模型BERT，但是這些系統對於運算的要求很高，訓練大型模型需要龐大的GPU運算資源。

Data2vec 2.0與Data2vec演算法類似，針對資料的脈絡化（Contextualized）表示進行預測，而非只是圖像的畫素、文字段落或是語音的單音。研究人員提到，這和大多數的演算法不同，這代表演算法將整個訓練範例納入考量，像是考量整個出現Bank這個單詞的句子，就更容易了解其正確含義，由於脈絡化目標帶來更豐富的學習任務，因此Data2vec 2.0也就比其他演算法學習的更快。

研究人員使用基準測試Data2vec 2.0，測試其在電腦視覺、語音和文字任務的表現，了解新的演算法與其他模型的差異。研究人員以ImageNet-1K圖像分類基準評估Data2vec 2.0，發現準確度可媲美MAE，但是速度要快16倍，給Data2vec 2.0更多時間也就能達到更高的準確度，但是仍然比MAE快得多。

語音方面則是使用LibriSpeech語音辨識基準進行測試，Data2vec 2.0執行速度是Wav2vec 2.0的11倍以上，達類似準確度。自然語言處理任務則使用GLUE基準測試，其以RoBERTa一半的時間，獲得相同的準確度。

熱門新聞