Google釋出少樣本學習資料集Meta-Dataset

Google釋出Meta-Dataset，這是一個用於少樣本（Few-Shot）學習研究的資料，在這個資料集中，Google提出了一個大規模且多樣化的基準，可用於量測不同圖像分類模型的能力，並提供一個用來研究少樣本學習的框架。

Google提到，雖然最近深度學習在一些難題上，都取得了重要的進展，但是這些成功的應用，通常來自於大量需要手動註解的訓練資料，因此這也顯示出了少樣本學習的研究價值，從科學的角度來看，深度學習演算法從有限樣本中學習的能力，與人類相比的確存在明顯的差距，而另一方面，從實際應用的角度來看，少樣本學習也是一個很重要的課題，可讓模型解決缺乏大型標籤資料集的問題，使機器學習應用更加普遍。

近來有許多針對少樣本分類的研究，不過之前的基準測試皆無法可靠地評估每個模型相對的優點，因此阻礙了研究發展。Meta-Dataset由10個公開圖像資料集組成，包含ImageNet、Fungi和CUB-200-2011，還有一些手寫字元和塗鴉圖像等，Google還公開了程式碼，其中包含了筆記本，展示使用TensorFlow和PyTorch應用資料集的方法，以及使用Meta-Dataset對現存少樣本圖像分類模型，進行初步研究的成果。

標準圖像分類會用一組特定類別的圖像資料集來訓練模型，並使用同類別的圖像測試模型效能，而少樣本分類的目的則是訓練出靈活的模型，希望僅使用幾個範例就可重新使模型能分類新的圖像類別，Meta-Dataset最終目標是要讓模型，能夠在各種測試任務都能表現良好，並且處理在訓練階段未曾看過的類別。

Meta-Dataset是目前用於少樣本圖像分類研究中，最大型的跨資料集組織基準，而且其使用了特殊的採樣演算法，能夠改變每個任務中的類別數和每個類別案例數，透過加入類別不平衡和特定資料集，來改變每個任務之間的類別相似度。

在利用Meta Dataset評估當前預訓練和元學習模型之後，Google得出了一些結論，目前的方法都難以使用異構訓練資料來源，而有部分模型，比其他模型還要能夠利用資料，Google提到，Meta Dataset為少樣本分類帶來新的挑戰，並且在初步的研究，已經發現了現有方法的限制，找到需要進一步研究的方向，Google希望Meta Dataset能推動少樣本學習這個機器學習子領域的研究。

熱門新聞