情境示意圖,圖片來源/臉書’

臉書於12日發表了Learning from Videos專案,準備利用使用者上傳到臉書的公開影片,來學習人們在現實生活中的聲音、文字與視覺呈現,以用來改善各種應用的核心AI系統,而不是只透過資料集來學習,而該專案的首個實際應用則是Instagram Reels的推薦系統。

臉書表示,比起只從小規模的數據集來學習,可從公開影片中學習的AI將更能分析未經整理、現實世界中的各種視野與聲音,特別是這些影片可能涉及每一個國家與數百種語言,使得AI系統不僅能改善精確性,還能適應快速變動的世界,以及理解不同文化與地區之間的細微差別。

此外,此一全面且實際的學習,也能協助研究人員擺脫對標籤資料的依賴,改善基於AI的產品並創造全新的體驗。

迄今臉書已利用自我監督學習框架來理解使用者上傳至該平臺的影片,並改善其電腦視覺及語音辨識系統,讓語音辨識錯誤減少了20%,現在則直接部署一個相關的AI模型至Instagram Reels的推薦系統。

Instagram Reels是一個類似TikTok的短影片服務,根據臉書的研究,熱門的影片通常具備同樣的音樂及舞步風格,只是由不同的人所表演或創造,而自我監督模型則可自動學習這些主題,將它們聚集,繼之提供給推薦系統。該系統可以根據使用者最近觀看的影片來推薦其它影片,還能過濾幾近重覆的影片,與過去推薦系統最大的不同在於:它並沒有替每個分類任務提供清楚的訓練標籤。

Instagram Reels推薦系統也藉助了臉書所開發的通用資料轉換(Generalized Data Transformations,GDT)技術,用以學習影片中聲音與視覺上的關係,也發現在不同影片中有類似的聲音對於推薦相關內容上極有幫助。

臉書對AI系統的野心並不只在於單純的推薦系統,該公司正在發展AR眼鏡,期許此一標榜時尚風格且輕便的眼鏡能夠理解使用者所看到的情境,Learning from Videos專案的目的是能夠理解影片中每個單獨存在的聲音、文字與畫面,也能理解這些元素之間的關聯性。臉書指出,該專案在機器對影片的理解上帶來典範式的轉移,替打造更聰明的AI系統鋪路。

熱門新聞

Advertisement