190萬張訓練圖像！Google釋出超大型開放圖片資料集，150萬項物件定位可訓練AI多樣化複雜圖像辨識

Google近日釋出最新的開放圖片資料集Open Images V4，包含190萬張圖像，圖像中總共有超過150萬個600種種類的標示物體位置定界框（Bounding box），資料集的圖像分為9,011,219張圖像的訓練集、41,620張圖像的驗證集，以及125,436張圖像的測試集，Google表示，Open Images V4為目前市面上最大的物體位置標示資料集。

Google曾在2016年釋出開放圖片資料集Open Images，包含了900萬個含有CC授權標籤的圖片URL，涵蓋了6千多個物體種類，Open Images即是用來提供電腦視覺技術有用的訓練資源，協助開發人員建立新的電腦視覺識別模型，從釋出該圖片資料集後，Google就一直不斷地嘗試更新和改善此圖片資料集。

在資料集的圖像中，有90%的界定框，是由專業的標註圖像物體人員手動標示，來確保物體辨識的準確率和一致性，且該資料集中的圖像組成相當多元，大多是涵蓋多種不同物體的複雜場景，平均每張圖像都由8個以上的不同物體所組成。

除了宣布釋出開放圖片資料集Open Images V4的消息之外，Google也發布將要舉行一項全新的Open Images挑戰賽，比賽將會在2018年歐洲電腦視覺研討會上舉辦，Google表示，挑戰賽會依照像是PASCAL VOC、ImageNet，以及COCO的傳統比賽模式進行，但是規模會更大。

舉例來說，訓練集包含了500個種類共170萬張圖片，圖像共有1,220萬個物體位置定界框，且該挑戰賽偵測的類別相比過去的電腦視覺挑戰賽更加多元，像是有識別雪人的新項目，除了偵測物體之外，還得要辨識出物體之間的關聯性，用來辨識人與物體的關係，像是女孩彈吉他、男人拿著麥克風，另外還有物體之間的關係，像是桌上的啤酒、車內的狗等。

訓練集現在已經釋出，10萬張圖片的測試集將會於Kaggle在7月1日釋出，9月1日截止提交作品，挑戰賽的總獎金為5萬美元。

Google期待藉由大量的訓練資料集，將會促進許多令人驚豔的模型誕生，也認為大量的物體位置標示資料集，能為電腦視覺技術帶來幫助。

熱門新聞