圖片來源: 

Meta

Meta昨(5)日宣布開源可分割圖像,或將某部分圖像獨立出來並遮罩的圖像分割(image segmentation)AI模型及訓練資料集。

Meta公布Segment Anything專案,將其開發的圖像分割(image segmentation)模型Segment Anything Model(SAM)及Segment Anything 1-Billion(SA-1B)遮罩資料集以Apache 2.0授權開源,以提供開發及研究之用。

圖片來源/GitHub

圖像分割是指辨識屬於特定物件的圖像像素,它是電腦視覺的核心任務,也用於多種領域,包括分析科學影像或編輯相片。但建立特定應用的準確圖像分割模型,需要具備AI模型訓練的基礎架構,以及經仔細標註的大量資料。

圖片來源/Meta

Meta指出,Segment Anything專案的核心目的是透過提供圖像分割的底層模型,降低訓練特定任務用的模型建立、基礎架構、資料標註的門檻。其SAM模型已經過多元資料訓練,再依不同任務加以訓練,也可像自然語言處理模型一樣透過提示執行。

同時,此類模型訓練資料不像一般影片、圖像和文字可在網際網路上隨處取得,這也是Meta提供SA-1B價值所在。Meta說,它也是歷來最大的圖像分割訓練資料集。

Meta指出,SAM作為底層模型,已能理解模型的一般概念,可為圖像和影像中任何物件產生遮罩,包含訓練時未遇過的物件和圖像類型,足以涵蓋多種應用情境,包括較新的影像領域,如水底相片或細胞顯微影像等。

Meta說,Segment Anything專案可促進新圖像分割模型的發展,對AI研究界而言,SAM也能作為更大型AI系統的一部分,期望結合提示工程等,發展出可拆解的系統設計,以用於多模AI應用。像是理解網頁的影像和文字內容。或是用於AR/VR系統中,根據使用者視線選擇物件,再將之提升為3維物件。對內容創作者,SAM可協助擷取一部分影像製作拼貼,或進行影片編輯。SAM也可用於自然現象的科學研究,例如定位動物或物件,並在影片中追蹤等等。

SAM及SA-1B相關資訊已公開在GitHub上SA-1B是由一家大型相片業者授權,包括地點、地點、風景等主題圖片,而為隱私考量,本資料集已經對人的臉孔及車牌做過匿名化處理。

Meta 2月間開源的大型語言模型LLaMA,其他研究單位在其基礎上已接連開發新模型,例如史丹佛大學的Alpaca 7B及Databricks的Dolly

熱門新聞

Advertisement