【CNN之父Yann LeCun大預測】如何突破深度學習現有侷限？自監督式學習是解方

Yann LeCun指出，運用自監督式學習來預測圖片中的空白，表現的差強人意，因為SSL適合用來處理具有離散分布特性的資料，比如文字填空具有一對一的關係，但對於影像，甚至是影片或聲音等高維度連續性資料，就難以預測。（攝影／王宏仁）

在1980年代末期，提出卷積神經網路（Convelutional Nureul Network，CNN）框架LeNet-5，而被喻為CNN之父的Yann LeCun，目前為臉書AI研究院的首席科學家，同時身兼紐約大學教授。不過，他近期最為人所知的，大約是在今年初，榮獲素有電腦界諾貝爾獎之稱的2018年圖靈獎（Turing Award），不僅肯定了他對深度學習發展的貢獻，也更加奠定了他的地位。而這位AI界的大神級人物，近日更二訪臺灣，在匯聚了全球頂尖人才的全球影像處理會議（ICIP大會）上，發表可能影響未來影像理解的關鍵技術——自監督式學習（Self-supervised Learning，SSL）。

「一般人們在談AI或機器學習，大多時候指的是深度學習，而談到深度學習，大多時候也是指監督式學習（Supervised Learning）。」Yann LeCun認為，目前應用最廣泛的監督式學習，是由人給定標記好的資料，讓機器學習正確答案並作為推論根據，進而完成指定的任務，如語音轉文字、分類圖像、物件辨識等。

但一體兩面的是，資料標記雖是監督式學習的最大特色，卻也成為一種侷限，因為機器只能根據已標記的特徵來學習，難以如人類學習般舉一反三，標記過程也需耗費大量時間或人力成本。

又比如強化學習（Reinforced Learning），是透過獎勵與懲罰的機制，讓機器在虛擬情境中不斷試錯（Trial and Error），累積經驗來學習。這種學習方式雖然在競技比賽裡表現良好、甚至能勝過人類，但學習效率極低。舉例來說，人類在15分鐘內能領略的任一款Atari遊戲，機器卻要平均訓練83小時才能學會，在臉書研發的虛擬圍棋遊戲ELF OpenGo中，更要用2000個GPU訓練14天，更別提在真實訓練環境中，要花200年才能學會的星海爭霸2（StarCraft 2）。

而且，強化學習並不能永遠在虛擬場景訓練，一旦進到真實世界，所有試錯的過程將會帶來高成本的代價。比如說，在自駕車了解前面是懸崖要轉彎之前，可能需要先掉下去幾百次，且不同於虛擬世界可以無間斷的循環訓練、進行平行運算，在真實世界中花費的訓練時間只會更長；更何況，人類學習只需極少數「試錯」的過程，在看到前方的懸崖之後，常識就會使我們轉彎。

對此，Yann LeCun認為，自監督式學習能解決這個問題。比起強化學習是從錯中學，自監督式學習是建構一個龐大的神經網絡，透過預測來認識世界。換句話說，自監督式學習能藉由觀察過去、當下所有的訓練資料，來預測下一刻會發生的事情，因此，在預測到車子將會摔落懸崖時，就能提前轉彎來避免。

SSL更接近人類學習方式，能突破深度學習侷限

「人類大部分是透過觀察來學習，少部分才是靠互動交流。」Yann LeCun說明，如果在一個5個月大的小嬰兒面前，展示一輛漂浮在空中的玩具車，從頭開始學習的嬰兒會覺得，這就是世界運行的方式；然而，如果在一個兩歲的孩童面前這麼做，孩子將會很驚訝，因為他已經透過長期的觀察，在腦海裡形成一套常識，知道玩具車不該漂浮在空中。

而自監督式學習，也是觀察現有訓練資料中的任何部份來學習，再去預測未知的部份，而且學習過程中並不仰賴人類給定的標籤。「不斷透過已知的部分來預測未知，這是更接近人類的學習方法。」Yann LeCun表示，不管是從過去的資料預測現在或未來、從近期的資料預測未來或過去、或從同一時間下的其他資料預測缺失的部份等，都能運用自監督式學習來完成。

Yann LeCun也進一步以蛋糕，來比喻三種學習方法所能預測的資料量。其中，以強化學習能預測的資料最少，是基於獎勵才能做出少量正確的預測，就像蛋糕上的櫻桃；而監督式學習的預測資料量，是取決於人類提供的標記資料，一個樣本能回饋10到1萬個位元（Bits）不等的訊息，像是蛋糕的表層；但是自監督式學習，則是給多少資料，就有多少資料能觀察，一個樣本能產生上百萬個位元的預測回饋，就像整個蛋糕本身，這是其他學習方法不能及的。

在應用方面，Yann LeCun也指出，自監督式學習目前在自然語言處理（NLP）的應用頗有成效。比如去年Google對外開源了用於自然語言預訓練的新技術BERT（Bidirectional Encoder Representations from Transformers），能在一個挖空15%內容的句子中，預測字彙並填空；其他相關的應用，還包括Word2vec、FastText、Cloze-Driven Auto-Encoder等文本內容處理模型。

除了NLP，圖像的填空是更具挑戰性的任務，但現在也已經能透過拼圖與著色問題的解法來預測。因為自監督式學習適合用來預測具有離散分布（Discrete Distribution）特性的資料，所以在著色的部分，就能運用離散分布，將顏色量化為較少數量的顏色種類，再挑選出可能代表該位置的顏色來著色；而拼圖問題則是能用基本的分類問題解法，先對資料的特徵進行訓練，再進行預測。

影片、聲音等高維度連續資料的預測，仍為SSL的挑戰

但是，Yann LeCun想做到的事不僅於此。除了靜態影像與文字的預測，他也將自監督式學習用在影片未來畫面或聲音的預測。但是動態的影像與聲音資料，都是屬於高維度的連續性（High-dimensional Continuous）資料，很難參數化（Parametrize）其可能的離散分布。以影片來說，在無法預測下一幀畫面的情況下，將呈現多種可能性結果的平均值，得到一個模糊的圖像。

對此，Yann LeCun提出可能的解方，比如運用對抗式生成網路（Generative Adversarial Network，GAN）。這個作法是將原先的預測模型視為生成器模型（Generator），另外用真實資料訓練一個分類器模型（Discriminator），來分辨生成器的預測結果是好或壞；不過，由於生成器會不斷生成以假亂真的結果來混淆分類器的決策，所以生成器的預測結果，將逐漸趨近於真實的影像資料。「可以理解為，分類器不斷告訴生成器，你的預測結果離正確答案有多遠。」

除了一般GAN的運用，Yann LeCun也提出一種以能量為基礎的生成模型（Energy-based Model，EBM），透過生成越不合常理的預測時所需能量越多的機制，來找出最低能量的預測分布。不同於監督式學習只能給出單一的答案，EBM可以給出一整組可能的輸出，如影片未來可能出現的畫面及每個預測結果的分數，「如此一來，就可能訓練出模擬真實世界的影片預測模型。」

對於自監督式學習在影片預測的成效，Yann LeCun也提出一個研究案例。在一段高速公路的車流影片中，針對其中一輛車的行進路線進行測試，來檢視自監督式學習模型，是否能藉由預測自駕車周遭車輛的行駛軌跡，來估算接下來的行駛方向與速度。測試過程中也保留原始車輛，另外模擬出一輛自駕車，來對比兩輛車的行進路線差異。

在研究這個問題時，Yann LeCun也運用一個架構，是透過世界模擬器（World Simulator）模型，來模擬現實環境將會因為每個決策做出的改變，進而去衡量接下來車子要採取哪些動作來達到目的，「這個架構常就是我們在計畫的過程，因為每個計畫都是綜合考量許多預測產生的結果。」

對於AI的發展，Yann LeCun認為，現今的深度學習方法，雖然能帶給人類新科技的應用，如自駕車、醫療影像分析、語言翻譯、聊天機器人等，卻無法創造出「真正的」人工智慧，也就是具備常識、聰明、敏捷且靈活的機器人。不過他也認為，儘管機器學習系統仍有侷限，但自監督式學習可能是個解方，甚至在未來建構出擁有人類常識的機器人（Human Level Intelligence），成為實現理想的第一步。

熱門新聞