臉書發表採用自我監督學習技術的電腦視覺模型SEER

臉書新開發了一個稱為SEER（SElf-supERvised）的自我監督式電腦視覺模型，能夠準確辨識圖像中的內容，SEER具有數十億個參數，可從網際網路上任何圖像中學習，不需要像當今大部分電腦視覺模型的訓練，需要經仔細的安排，並且使用標註資料集。另外，臉書還發表了用來開發SEER的底層開源函式庫VISSL，期望能使自我監督學習技術更加普及。

自我監督式學習現在被大量應用在自然語言處理上，特別是在問答、機器翻譯和自然語言推論方面，已經有了重大的突破，而現在臉書將自我監督的學習範式轉移到電腦視覺上，開發出SEER。

臉書提到，自我監督在文字和圖像上的應用不同，對文字來說，語意概念會被分解為離散的單詞，而在圖像上，演算法會決定畫素所屬的概念。此外，同一個概念在圖像中，也有很大差異，例如同樣是貓，但是不同姿勢的貓和從不同角度拍攝的貓變化很大，因此演算法需要從大量的圖片中學習，才能掌握單一概念的變化。

因此要擴展模型，使其能夠處理高維度的圖像資料，需要兩個重要功能，第一是從大量隨機圖像中學習，而不需要任何元資料以及註解，第二則是需要足夠大的卷積網路，才能從龐大且複雜的資料中，捕捉並學習每一個視覺概念。臉書開發了一個稱為SwAV的新演算法，可以使用線上分群功能，快速地以視覺概念和相似度分組圖像，以SwAV為基礎，臉書加速了自我監督訓練的速度，減少6倍的訓練時間。

另外，Runtime和記憶體效能也是很重要的要素，臉書使用了他們最近剛開發的新模型RegNets，該模型是一種卷積網路，經過特別設計，可以擴展到數十億甚至數兆參數，並且進行最佳化，以適應不同Runtime和記憶體限制。

在經過10億張隨機、未經整理和標記的公共Instagram圖像進行預訓練，結果顯示SEER的效能比起當前最先進的自我監督系統還要好，在ImageNet上達到Top-1指標的準確性有84.2％，也就是說，在對圖像進行預測時，機率最大的結果即為正確答案的準確度為84.2％，而即便只使用10％的ImageNet資料集進行訓練，SEER的Top-1精確度仍達到77.9％，而使用1％帶有註解的ImageNet範例訓練，則Top-1精確度達到60.5％。

臉書提到，這項發展是一項重大的突破，因為證明自我監督學習可被用於電腦視覺中，而且強化了電腦視覺模型的靈活性、準確性和適應性。

隨著這個自我監督式電腦視覺模型SEER發表，臉書同時也推出SEER底層所使用的VISSL函式庫，VISSL是一個以PyTorch為基礎的函式庫，可以讓開發者簡單地在圖像任務中應用自我監督技術。VISSL包含了一個基準組合，和超過60個現成的預訓練模型，研究人員可以簡單地比較數種自我監督方法。

熱門新聞