AutoAugment演算法能夠自動調整圖像顏色,增加深度學習模型訓練資料多樣性

Google發表了AutoAugment技術,從訓練資料下手來增強深度學習的效率,該演算法可以找出最佳增強策略,自動增加既有資料集所能提供的資料數量與多樣性,透過這個方法,Google大幅增加了圖像推測的精準度,在ImageNet資料集中獲得了83.54%的精準度,目前排名第一。

深度學習在電腦視覺領域的應用,要提高模型的推測精準度,關鍵通常在於大量標記的訓練資料的可取得性,只要輸入越多高品質具多樣性的訓練資料,模型的效能也會隨之增加,但Google提到,重點就是收集大量的高品質訓練資料,來提高模型效能是一件非常困難的事。

過去在訓練高效能的電腦視覺模型,無論是半自動產生或是手動編輯資料的增強方法,一直都是選項之一,透過翻轉或是旋轉圖像,能讓類神經網路取得更多樣性的訓練資料,但最近的研究已經不太有人關注這個面向。Google提到,他們是因為受到自家機器學習服務AutoML的啟發,因為先例以類神經網路與Optimizer產出的結果,替換人類設計的系統元件,才重新燃起這樣的想法,他們認為,或許系統也能自動完成資料增強,讓機器學習自己決定資料增強方法,生產出更多用於深度學習訓練資料。

AutoAugment的想法很簡單,Google表示,圖像具有許多對稱性質,而這些性質的改變並不會影響圖像的內容,像是狗的圖像鏡射仍然是狗,雖然這樣的變化對人來說是顯而易見的,但像是在訓練時將圖像互相交疊,透過混合方法來增強資料,就不這麼直覺了。

AutoAugment是專為電腦視覺設計的資料集自動增強策略,除了一些基本的圖像操作,像是水平、垂直翻轉,或是單純的旋轉外,還能更改圖像的顏色。AutoAugment不僅可以預測合併圖像的變換,還是預測每個圖像變換的機率和大小,演算法不會總是以相同的方法操做圖像,AutoAugment會在2.9乘以1.32的圖像變換機率搜尋空間中,選擇一個最佳的變換政策。

AutoAugment會針對不同資料集的屬性,學習不同的圖像變換方法,像是在包含數字與自然場景的門牌號碼街道視圖,AutoAugment就會將增強處理重點,放在裁切與平移等幾何變換上,而且由於世界各地門牌號碼的樣式顏色不一,AutoAugment還學會完全反轉從門牌號碼街道視圖上收集到的門牌顏色。

而在CIFAR-10與ImageNet資料集中,AutoAugment則不會對圖片進行裁切,因為這些圖片通常不包含被截斷的物體,而且也不會反轉圖像顏色,因為最終總會出現不實際的圖像結果,但是卻會自動調整顏色分布,同時保留一般顏色的屬性,Google表示,這代表著在這兩種圖像資料集中,物體的實際顏色很重要,而在門牌號碼街道視圖則是相對的顏色重要。

Google透過AutoAugment演算法,意外的發現過去一些著名電腦視覺演算法的增強策略,而在取得這些增強策略的綜合優點後,推測精準度有了大幅度的增加,除了在ImageNet資料集中獲得了83.54%的精準度,目前排名第一外,在CIFAR10資料集上錯誤率僅有1.48%,這個結果比科學家預設的錯誤率還低0.83%。

另外,在門牌號碼街道視圖的應用上,錯誤率從原本的1.30%降低到了1.02%,而且Google提到,AutoAugment發現的增強策略是可以移植的,像是在ImageNet資料集歸納出的策略,也可以應用在福特汽車或是FGVC-Aircraft的資料集中。

熱門新聞

Advertisement