Meta公開新模型V-JEPA，透過預測影片缺失部分讓AI更理解真實世界

建立在Meta首席人工智慧科學家Yann LeCun，所提出的人工智慧模型架構JEPA（Joint Embedding Predictive Architectures），Meta人工智慧研究團隊公開用於影片預測的非生成式人工智慧模型V-JEPA，透過預測影片中缺失或是被遮蔽的部分，來有效提升人工智慧對這個世界的理解。

Yann LeCun在2022年的時候提出JEPA架構，目標是要建立進階的機器智慧，讓人工智慧可以像人類一樣學習，建立起周圍世界的內在模型，以便學習、適應，並且有效地制定計畫，完成複雜的任務。所謂的內在模型，指得是人類或人工智慧，在大腦或是神經網路中所建構的心智表示，其反映出對於世界的理解或是知識。

人類透過觀察周遭世界學習許多知識，研究人員舉牛頓第三運動定理說明，即便是嬰兒（或是貓）在多次將物體從桌面推落並觀察結果之後，皆能直覺理解物體上升必會下降的道理，事實上，人們並不需要花費數個小時學習，閱讀大量的書籍才能得到這個結論。人們藉由觀察世界所建立的內在模型運作非常高效，能夠準確快速地預測這些事物的結果。

Meta在2023年的時候，運用JEPA架構開發電腦視覺模型I-JEPA（Image Joint Embedding Predictive Architecture），其特色在於能夠關注真正的圖像重點，而I-JEPA高效能的秘訣在於，能夠以更像人類理解抽象表示的方法，來預測缺失的資訊。而現在Meta進一步擴展JEPA架構，發展可以處理影片的V-JEPA，V即代表影片（Video）。

V-JEPA方法類似於I-JEPA，比較圖像的抽象表示而非直接比較畫素本身，V-JEPA與嘗試填充缺失畫素的生成式方法不同，V-JEPA有能力丟棄不可預測的資訊，這使得訓練和採樣效率可提升達1.5到6倍。V-JEPA採用自監督學習方法，使用未標記的資料進行預訓練，唯有於預訓練後，要讓模型適應特定任務的時候才會使用標籤。

研究人員訓練V-JEPA的方法，是讓模型觀看一系列的影片，使其能夠掌握世界運作的方式。這些影片會經過遮蔽處理（下圖），透過遮蔽大面積影片內容，要求預測器在只有一小部分影片內容的上下文中，填充缺失的內容，且填充並非填充實際的畫素，而是表示空間中的抽象描述。

研究人員解釋，如果僅是隨機抽選遮蔽影片中的小區塊，則會讓任務過於簡單，使得模型無法真正學習到關於世界的複雜事物。因此Meta特別制定涵蓋空間與時間的遮蔽策略，迫使模型學習並且發展對場景的理解，進一步預測未來的事件或是動作，進而達到對世界更深層次的理解。

該方法的優勢讓模型能夠專注於影片的高層次概念，而不會鑽牛角尖於對下游任務不重要的細節，像是人類觀看在有樹木的影片，不會特別關心每片葉子的細微動作一樣，如此便能提高了學習效率和任務適應性。

V-JEPA還有一個重要的創新是凍結評估（Frozen Evaluations）的能力，模型在預訓練之後，核心的部分不會再改變，因此只需要在其上添加小型專門層即可適應新任務。該設計避免了傳統模型針對新任務需要全面微調的麻煩，減少學習新任務的資料和時間要求，並使得模型能夠在不同任務中重複使用，諸如動作分類、精細地物體互動辨識以及活動定位等。

Meta會繼續擴展V-JEPA模型，從只有處理影片的視覺內容，增加整合音訊實現多模態學習，研究團隊認為，透過更豐富的上下文資訊，將能夠加深模型對影片內容的理解。此外，他們也會繼續強化模型長期規畫和預測能力，使其能夠處理長時間跨度的任務，而這將是發展高階機器智慧的重要方向。Meta現在以創用CC BY-NC授權釋出V-JEPA模型，促進人工智慧領域發展。

熱門新聞