Meta公布圖像分割AI模型、訓練資料集

圖片來源:

Meta

Meta昨（5）日宣布開源可分割圖像，或將某部分圖像獨立出來並遮罩的圖像分割（image segmentation）AI模型及訓練資料集。

Meta公布Segment Anything專案，將其開發的圖像分割（image segmentation）模型Segment Anything Model（SAM）及Segment Anything 1-Billion（SA-1B）遮罩資料集以Apache 2.0授權開源，以提供開發及研究之用。

圖片來源／GitHub

圖像分割是指辨識屬於特定物件的圖像像素，它是電腦視覺的核心任務，也用於多種領域，包括分析科學影像或編輯相片。但建立特定應用的準確圖像分割模型，需要具備AI模型訓練的基礎架構，以及經仔細標註的大量資料。

圖片來源／Meta

Meta指出，Segment Anything專案的核心目的是透過提供圖像分割的底層模型，降低訓練特定任務用的模型建立、基礎架構、資料標註的門檻。其SAM模型已經過多元資料訓練，再依不同任務加以訓練，也可像自然語言處理模型一樣透過提示執行。

同時，此類模型訓練資料不像一般影片、圖像和文字可在網際網路上隨處取得，這也是Meta提供SA-1B價值所在。Meta說，它也是歷來最大的圖像分割訓練資料集。

Meta指出，SAM作為底層模型，已能理解模型的一般概念，可為圖像和影像中任何物件產生遮罩，包含訓練時未遇過的物件和圖像類型，足以涵蓋多種應用情境，包括較新的影像領域，如水底相片或細胞顯微影像等。

Meta說，Segment Anything專案可促進新圖像分割模型的發展，對AI研究界而言，SAM也能作為更大型AI系統的一部分，期望結合提示工程等，發展出可拆解的系統設計，以用於多模AI應用。像是理解網頁的影像和文字內容。或是用於AR/VR系統中，根據使用者視線選擇物件，再將之提升為3維物件。對內容創作者，SAM可協助擷取一部分影像製作拼貼，或進行影片編輯。SAM也可用於自然現象的科學研究，例如定位動物或物件，並在影片中追蹤等等。

SAM及SA-1B相關資訊已公開在GitHub上。SA-1B是由一家大型相片業者授權，包括地點、地點、風景等主題圖片，而為隱私考量，本資料集已經對人的臉孔及車牌做過匿名化處理。

Meta 2月間開源的大型語言模型LLaMA，其他研究單位在其基礎上已接連開發新模型，例如史丹佛大學的Alpaca 7B及Databricks的Dolly。

熱門新聞