Google進一步擴展電腦視覺資料集Open Images,發布最新V7版本,加入被稱為點標籤(Point Labels)的新註解類型,另外,Open Images V7還加入了多合一視覺工具,供使用者同時使用多註解資料,更好地探索資料集。

Open Images電腦視覺資料集內含900萬張圖像,標籤涵蓋數千種物件類別,可讓研究人員訓練並且評估電腦視覺模型。Google自2016年發布Open Images以來,經過多次更新擴展,從最初6千個物件類別擴展到2萬個,並且在190萬張圖像的子資料集中,添加了邊界框註解、視覺關係、實例切割和定位敘述。

Google收集點標籤的主要策略,是運用機器學習模型以及人工驗證,機器學習模型會選擇圖片上的興趣點,並且提出是非問題,像是在圖片上的一點上尋問「這在南瓜上嗎?」,接著由人工註解者針對問題回答是或是否,同一問題會分配給不同的註解者,所有註解者會對每個註解點指定是、否或不確定的標籤。

每張帶有註解的圖像,擁有一個點集合,每個點都帶有是或否的標籤,研究人員提到,這些點可對語意分割任務提供稀疏資訊。研究人員共收集了3,860萬個點的註解,涵蓋5,800類別共140萬張圖像。

透過專注在點級標籤,研究人員得以對更多的圖像和類別加入註解,比起實例分割(Instance Segmentation)註解,點標籤涵蓋多達16倍的圖像,與邊界框註解(Box Annotation)相比,點級標籤涵蓋類別量為9倍。與現有的分割資料集PASCAL VOC、COCO、Cityscapes、LVIS或ADE20K比起來,點標籤明顯覆蓋更多的類別和圖像。

點級標籤也是Open Images第一個標籤類型,能對可數或是不可數物體提供定位資訊,研究人員提到,整體而言,新收集的標籤資料相當於兩年人工註解的工作量。經過Google的實驗證實,點標籤類型的稀疏資料,適合用於訓練和評估分割模型,將模型直接使用點標籤資料訓練,可以獲得與密集註解資料相當的模型品質。

除了新的點標籤資料,Open Images V7網站現在提供專用的視覺化工具,可供用戶探索定位描述註解、點標籤和多合一檢視圖,在同一張圖中,同時顯示不同的圖像標籤。

熱門新聞

Advertisement