圖片來源: 

蘋果

蘋果本周公開展示具備文字、聲音、圖像理解能力的多模態AI模型訓練框架4M,及支援21種模態資料的多模態模型。

4M模型框架全名為極多模態掩碼模型(Massively Multimodal Masked Modeling),為蘋果與瑞士洛桑聯邦理工學院(EPFL)合作開發。研究團隊於去年12月首先在2023年神經資訊處理系統(NeurIPS 2023)大會上發表,並向大眾開源。今年的最新成果中,研究團隊展示4M-21模型,為一any to any視覺模型,可支援21種模態任務和模態。

4M模型及相關技術上,蘋果解釋,傳統視覺機器學習模型只能用於專門化的特定模態或任務,新近的大型語言模型則具備多模態識別能力,而4M則是更進一步的多種模態模型訓練方法。它運用掩碼建模(masked modeling)方法,來訓練出單一統合式transformer encoder-decoder,輸出、輸入都可支援多模態資料,涵括文字、幾何圖、語義模態,以及現有藝術模型DINOv2和ImageBind的神經網路特徵地圖。

蘋果說,4M模型框架能以很少量的隨機詞元(token)訓練並有效擴充以訓練模型,其主要優點包括可適用多種視覺識別任務,經過微調後,也能在新任務或新模態資料上有效預測,並能訓練出現今最夯的生成式模型。

在最新的研究進展下,研究團隊將4M擴展為21種模態資料,加入了包括人類姿勢和體形、SAM(Segment Anything Model)instances、以及metadata,還提出了針對特定模型的詞元化(tokenization)方法。研究團隊也成功以4M框架擴展到30億參數的模型,還能結合視覺與語言資料來進行訓練。

研究團隊本周也釋出了二種模型,包括4M-7及4M-21的程式碼和模型。4M-21全名為An Any-to-Any Vision Model for Tens of Tasks and Modalities,研究團隊聲稱練出的模型具備未經微調(out-of-box)的極佳視覺識別效能、可執行任何條件及可操控(any-conditional & steerable)生成、跨模態擷取、支援多種感測器資料混合的能力。研究人員指出,透過4M及4M-21的研究,他們展示了可解決了多模態資料輸入任務,比現行模型多3倍,而且完全不損及效能。

VenturBeat指出,這次公布是蘋果過去極少見透明化宣傳的行為,顯示為了在AI業務上急起直追,蘋果逐漸改變行為作風。在6月的WWDC上,蘋果宣布將在iOS 18、macOS Sequoia加入和OpenAI ChatGPT的整合,也可能再引入Google Gemini或其他AI模型功能。

熱門新聞

Advertisement