投稿做者:極鏈AI研究院顧寅錚
今年4月,在北京舉行的智源學者計劃啓動暨聯合實驗室發佈會上,北京曠視科技有限公司與北京智源人工智能研究院共同發佈了全球最大的目標檢測數據集 – Objects365。html
該數據集總共包含63萬張圖像,覆蓋365個類別,高達1000萬框數,具備規模大、質量高、泛化能力強的特色,遠超Pascal VOC、COCO等傳統數據集。關於Objects365的論文 [1] 近日在兩年一度的計算機視覺頂會ICCV 2019中發表,同時在不久前結束的谷歌目標檢測賽Open Images Challenge 2019 – Object Detection Track [2] 中排名前三的隊伍都使用了Objects365做爲額外數據集並取得mMAP平均提高2至3個百分點。web
1. 規模算法
數據集包括人、衣物、居室、浴室、廚房、辦公、電器、交通、食物、水果、蔬菜、動物、運動、樂器14個大類,平均每一類有大約26個小類。api
Objects365與其餘數據集的比較google
如圖1所示,比起COCO數據集 [3],Objects365具備5倍的圖像數量、4倍的類別數量、以及10倍以上標註框數量。在數量上,惟一規模超過Objects365的OpenImages數據集 [4] 具備標註精度不高及覆蓋不全等明顯缺點 (partially annotated),這對模型訓練會帶來嚴重影響。比起OpenImages,Objects365具備每張圖中全部物體都被標註的優點,這在Boxes/img這列 (15.8 vs. 9.8) 獲得體現:在類別數少 (365 vs. 500) 的狀況下達到平均每張圖包含1.6倍的標註框。人工智能
2. 質量spa
圖2:htm
如圖2所示,即使只考慮Objects365在COCO和VOC數據集中的80類和20類,在每張圖像平均框數和類別數這兩項指標上,Objects365依然優於COCO和VOC。標註過程當中減小了漏標,平均標註區域佔比也超過COCO和VOC。rem
物都有精準的標註框。it
3. 泛化能力
比起上述兩項,鑑定一個數據集質量很重要的一項指標即是其泛化能力。
預訓練數據集與ImageNet的比較
如圖3所示,比起傳統預訓練數據集ImageNet [5],使用Objects365預訓練可達到在訓練時間縮短至六分之一 (90K次迭代 vs. 540K次迭代) 的狀況下mMAP提高2.7個百分點(檢測模型使用ResNet50+FPN做爲Backbone的Faster RCNN)。
另外,在其餘計算機視覺任務,如行人檢測、語義/場景分割等,中使用Objects365做爲預訓練數據集均可達到速度與精度的明顯提高,詳情可參照論文 [1]。
4. 結語
隨着近年來計算機視覺技術的飛速發展,算法對數據的要求也愈來愈高。不管是目標檢測或語義分割等傳統任務,又或是目標關係等新推出或還未推出的新任務,現有的數據集顯然不能知足需求。相對於算法,優質數據集每每能對模型效果帶來更大的提高,不管是數據規模又或是標註質量,Objects365都爲計算機視覺技術樹立了新的里程碑。
參考文獻:
[1] Shao et al., Objects365: A Large-scale, High-quality Dataset for Object Detection, ICCV 2019.
[2] storage.googleapis.com/openimages/web/challenge2019.html
[3] Lin et al., Microsoft COCO: Common objects in context, ECCV 2014.
[5] Deng et al., ImageNet: A Large-scale Hierarchical Image Database, CVPR 2009.