Yann LeCun指出,運用自監督式學習來預測圖片中的空白,表現的差強人意,因為SSL適合用來處理具有離散分布特性的資料,比如文字填空具有一對一的關係,但對於影像,甚至是影片或聲音等高維度連續性資料,就難以預測。(攝影/王宏仁)

在1980年代末期,提出卷積神經網路(Convelutional Nureul Network,CNN)框架LeNet-5,而被喻為CNN之父的Yann LeCun,目前為臉書AI研究院的首席科學家,同時身兼紐約大學教授。不過,他近期最為人所知的,大約是在今年初,榮獲素有電腦界諾貝爾獎之稱的2018年圖靈獎(Turing Award),不僅肯定了他對深度學習發展的貢獻,也更加奠定了他的地位。而這位AI界的大神級人物,近日更二訪臺灣,在匯聚了全球頂尖人才的全球影像處理會議(ICIP大會)上,發表可能影響未來影像理解的關鍵技術——自監督式學習(Self-supervised Learning,SSL)。

「一般人們在談AI或機器學習,大多時候指的是深度學習,而談到深度學習,大多時候也是指監督式學習(Supervised Learning)。」Yann LeCun認為,目前應用最廣泛的監督式學習,是由人給定標記好的資料,讓機器學習正確答案並作為推論根據,進而完成指定的任務,如語音轉文字、分類圖像、物件辨識等。

但一體兩面的是,資料標記雖是監督式學習的最大特色,卻也成為一種侷限,因為機器只能根據已標記的特徵來學習,難以如人類學習般舉一反三,標記過程也需耗費大量時間或人力成本。

又比如強化學習(Reinforced Learning),是透過獎勵與懲罰的機制,讓機器在虛擬情境中不斷試錯(Trial and Error),累積經驗來學習。這種學習方式雖然在競技比賽裡表現良好、甚至能勝過人類,但學習效率極低。舉例來說,人類在15分鐘內能領略的任一款Atari遊戲,機器卻要平均訓練83小時才能學會,在臉書研發的虛擬圍棋遊戲ELF OpenGo中,更要用2000個GPU訓練14天,更別提在真實訓練環境中,要花200年才能學會的星海爭霸2(StarCraft 2)。

而且,強化學習並不能永遠在虛擬場景訓練,一旦進到真實世界,所有試錯的過程將會帶來高成本的代價。比如說,在自駕車了解前面是懸崖要轉彎之前,可能需要先掉下去幾百次,且不同於虛擬世界可以無間斷的循環訓練、進行平行運算,在真實世界中花費的訓練時間只會更長;更何況,人類學習只需極少數「試錯」的過程,在看到前方的懸崖之後,常識就會使我們轉彎。

對此,Yann LeCun認為,自監督式學習能解決這個問題。比起強化學習是從錯中學,自監督式學習是建構一個龐大的神經網絡,透過預測來認識世界。換句話說,自監督式學習能藉由觀察過去、當下所有的訓練資料,來預測下一刻會發生的事情,因此,在預測到車子將會摔落懸崖時,就能提前轉彎來避免。

SSL更接近人類學習方式,能突破深度學習侷限

「人類大部分是透過觀察來學習,少部分才是靠互動交流。」Yann LeCun說明,如果在一個5個月大的小嬰兒面前,展示一輛漂浮在空中的玩具車,從頭開始學習的嬰兒會覺得,這就是世界運行的方式;然而,如果在一個兩歲的孩童面前這麼做,孩子將會很驚訝,因為他已經透過長期的觀察,在腦海裡形成一套常識,知道玩具車不該漂浮在空中。

而自監督式學習,也是觀察現有訓練資料中的任何部份來學習,再去預測未知的部份,而且學習過程中並不仰賴人類給定的標籤。「不斷透過已知的部分來預測未知,這是更接近人類的學習方法。」Yann LeCun表示,不管是從過去的資料預測現在或未來、從近期的資料預測未來或過去、或從同一時間下的其他資料預測缺失的部份等,都能運用自監督式學習來完成。

Yann LeCun也進一步以蛋糕,來比喻三種學習方法所能預測的資料量。其中,以強化學習能預測的資料最少,是基於獎勵才能做出少量正確的預測,就像蛋糕上的櫻桃;而監督式學習的預測資料量,是取決於人類提供的標記資料,一個樣本能回饋10到1萬個位元(Bits)不等的訊息,像是蛋糕的表層;但是自監督式學習,則是給多少資料,就有多少資料能觀察,一個樣本能產生上百萬個位元的預測回饋,就像整個蛋糕本身,這是其他學習方法不能及的。

在應用方面,Yann LeCun也指出,自監督式學習目前在自然語言處理(NLP)的應用頗有成效。比如去年Google對外開源了用於自然語言預訓練的新技術BERT(Bidirectional Encoder Representations from Transformers),能在一個挖空15%內容的句子中,預測字彙並填空;其他相關的應用,還包括Word2vec、FastText、Cloze-Driven Auto-Encoder等文本內容處理模型。

除了NLP,圖像的填空是更具挑戰性的任務,但現在也已經能透過拼圖與著色問題的解法來預測。因為自監督式學習適合用來預測具有離散分布(Discrete Distribution)特性的資料,所以在著色的部分,就能運用離散分布,將顏色量化為較少數量的顏色種類,再挑選出可能代表該位置的顏色來著色;而拼圖問題則是能用基本的分類問題解法,先對資料的特徵進行訓練,再進行預測。

影片、聲音等高維度連續資料的預測,仍為SSL的挑戰

但是,Yann LeCun想做到的事不僅於此。除了靜態影像與文字的預測,他也將自監督式學習用在影片未來畫面或聲音的預測。但是動態的影像與聲音資料,都是屬於高維度的連續性(High-dimensional Continuous)資料,很難參數化(Parametrize)其可能的離散分布。以影片來說,在無法預測下一幀畫面的情況下,將呈現多種可能性結果的平均值,得到一個模糊的圖像。

對此,Yann LeCun提出可能的解方,比如運用對抗式生成網路(Generative Adversarial Network,GAN)。這個作法是將原先的預測模型視為生成器模型(Generator),另外用真實資料訓練一個分類器模型(Discriminator),來分辨生成器的預測結果是好或壞;不過,由於生成器會不斷生成以假亂真的結果來混淆分類器的決策,所以生成器的預測結果,將逐漸趨近於真實的影像資料。「可以理解為,分類器不斷告訴生成器,你的預測結果離正確答案有多遠。」

除了一般GAN的運用,Yann LeCun也提出一種以能量為基礎的生成模型(Energy-based Model,EBM),透過生成越不合常理的預測時所需能量越多的機制,來找出最低能量的預測分布。不同於監督式學習只能給出單一的答案,EBM可以給出一整組可能的輸出,如影片未來可能出現的畫面及每個預測結果的分數,「如此一來,就可能訓練出模擬真實世界的影片預測模型。」

對於自監督式學習在影片預測的成效,Yann LeCun也提出一個研究案例。在一段高速公路的車流影片中,針對其中一輛車的行進路線進行測試,來檢視自監督式學習模型,是否能藉由預測自駕車周遭車輛的行駛軌跡,來估算接下來的行駛方向與速度。測試過程中也保留原始車輛,另外模擬出一輛自駕車,來對比兩輛車的行進路線差異。

在研究這個問題時,Yann LeCun也運用一個架構,是透過世界模擬器(World Simulator)模型,來模擬現實環境將會因為每個決策做出的改變,進而去衡量接下來車子要採取哪些動作來達到目的,「這個架構常就是我們在計畫的過程,因為每個計畫都是綜合考量許多預測產生的結果。」

對於AI的發展,Yann LeCun認為,現今的深度學習方法,雖然能帶給人類新科技的應用,如自駕車、醫療影像分析、語言翻譯、聊天機器人等,卻無法創造出「真正的」人工智慧,也就是具備常識、聰明、敏捷且靈活的機器人。不過他也認為,儘管機器學習系統仍有侷限,但自監督式學習可能是個解方,甚至在未來建構出擁有人類常識的機器人(Human Level Intelligence),成為實現理想的第一步。


熱門新聞

Advertisement