CVPR--2019 AI CITY CHALLENGE (track1成績A榜第一,綜合第二)

 官網:    https://www.aicitychallenge.org/git

 

   基於來自交通,信號系統,基礎設施和運輸的傳感器數據,存在使運輸系統更智能的巨大機會.不幸的是,因爲幾個緣由,進展受到限制:\,其中,數據質量差,缺乏數據標籤,缺少能夠將數據轉化爲可操做的視角的高質量模型,還須要可以處理從邊緣到雲的分析的平臺,這將加速這些模型的開發和部署github

        咱們正在2019年CVPR組織AI城市挑戰研討會,經過鼓勵研究和開發技術來幫助應對這些挑戰  。這種方法較少依賴於監督方法,而更多地依賴於轉移學習,無監督和半監督方法,超越了邊界框方式。它將側重於智能交通系統(ITS)等問題.算法

 

賽題(track1)解讀:安全

README.md框架

數據簡介:分佈式

  2019的基準是來自40個現實生活中的監控相機。在現實生活中,總共666個交通車輛被標註於5個場景中。其中,3個場景用於訓練,2個場景用於測試。ide

  總共有195.03 分鐘的視頻。訓練視頻的分鐘數是58.43分鐘,測試視頻是136.60分鐘。函數

 

文件夾中的內容:工具

1. 「train/*" 包含全部訓練子集數據性能

2. 」test/*"  包含全部測試子集數據

3. 「train(test)/<subset>/<cam>/'vdo.avi" 測試視頻

4. 」train(test)/<subset> /<cam>/roi.jpg". 爲感興趣區域,其中白色區域覆蓋整個目標的對象主體。

5. "trian/<subset>/<cam>/gt/gt.txt". MTMC賽題的真值數據,在MOTChallenge 格式[frame, ID, left, top, width, height, 1, -1, -1, -1] 僅考慮經過至少2個攝像機的車輛

6.  "train(test)/<subset>/<cam>/det/det_*.txt". 是基於不一樣MOTChallenge格式的baselines。每一個baseline涉及的方法以下所示:

[YOLOv3] Redmon, Joseph and Farhadi, Ali, "YOLOv3: An Incremental Improvement," arXiv, 2018.
[SSD] Liu, Wei and Anguelov, Dragomir and Erhan, Dumitru and Szegedy, Christian and Reed, Scott and Fu, Cheng-Yang and Berg, Alexander C., "SSD: Single Shot MultiBox Detector," ECCV, 2016.
[Mask/Faster R-CNN] He, Kaiming and Gkioxari, Georgia and Dollár, Piotr and Girshick, Ross, "Mask R-CNN," ICCV, 2017.

7. "train(test)/<subset>/<cam>/mtsc/mtsc_*.txt" 是MTSC根據MOTChallenge格式的不一樣baseline進行跟蹤的結果,每一個baseline涉及的方法以下所示:

[Deep SORT] Wojke, Nicolai and Bewley, Alex and Paulus, Dietrich, "Simple Online and Realtime Tracking with a Deep Association Metric," ICIP, 2017.
[Tracklet Clustering] Tang, Zheng and Wang, Gaoang and Xiao, Hao and Zheng, Aotian and Hwang, Jenq-Neng, "Single-camera and Inter-camera Vehicle Tracking and 3D Speed Estimation Based on Fusion of Visual and Semantic Features," CVPRW, 2018.
[MOANA] Tang, Zheng and Hwang, Jenq-Neng, "MOANA: An Online Learned Adaptive Appearance Model for Robust Multiple Object Tracking in 3D," arXiv, 2019.

8.  "train(test)/<subset>/<cam>/segm/segm_mask_rcnn.txt" 這是基於mask r-cnn分割的結果(每一行對應檢測結果)

9.  "train(test)/<subset>/<cam>/calibration.txt".它們是手動校準結果。 第一行給出從GPS座標投射到2D圖像像素位置的3×3單應矩陣。 對於魚眼攝像機,第二行給出失真係數。

10.  "list_cam.txt". It lists the subfolder of each video for training/testing. 列出了用於訓練和測試的視頻

11.  "cam_loc/<subset>.png". 對應了相機位置的預覽圖。對於每一個相機,咱們不須要去獲取精確的gps位置,可是每一個場景近似中心的位置提供了:

The GPS location for S01.png is 42.525678, -90.723601.
The GPS location for S02.png is 42.491916, -90.723723.
The GPS location for S0345.png is 42.498780, -90.686393.

12.  "cam_timestamp/<subset>.txt". 列出了5個場景中每一個場景的視頻(起始)時間戳。注意:因爲視頻傳輸過程當中的噪聲問題,(這在現實的分佈式場景中),在視頻中將存在丟幀現象,

所以他們並非嚴格對齊。全部的幀率是10FPS,除了c015在S03場景下的幀率是8FPS.

13.  cam_framenum/<subset>.txt". 列除了5個場景中,每一個場景是視頻幀數。

14.  "amilan-motchallenge-devkit/".這是一個額外的MOTChallenge的Matlab評估代碼(https://bitbucket.org/amilan/motchallenge-devkit/) 當執行demo_evalAIC19.m 代碼時,一個對於訓練集合的評估將會自動處理。

15. "DataLicenseAgreement_AICityChallenge.pdf". 數據使用許可協議

If you have any question, please contact aicitychallenge2019@gmail.com.

 

 

 

數據和評估方法

重要的提醒:評估系統現已開放。有關說明,請參閱「挑戰」 - >「評估系統」或單擊此處 (https://www.aicitychallenge.org/2019-evaluation-system/)

數據集

  咱們很高興地分享咱們有一個獨特的數據集。針對今年的挑戰,該數據集合擁有全新的車輛並對車牌作了處理。數據來自美國某個城市的多個交通攝像頭,以及愛荷華州的高速公路。

特別的,咱們擁有跨城市的主要幾個幹路的跨城市且時間同步的攝像頭。這些攝像頭也是主要用於交通運輸的目的。

1、城市交叉口和公路數據 - 從各個城市交叉口和高速公路的多個有利位置同步捕獲近3小時的同步視頻。視頻爲960p或更高,大多數視頻以每秒10幀的速度捕獲。

2、愛荷華州立大學數據 - 在愛荷華州的高速公路上捕獲超過25小時的視頻數據

3、有關收集的視頻的元數據,包括攝像機的GPS位置,攝像機校準信息和視頻中的其餘派生數據

 

Download Links

 見官網

 

 

評估和提交

  1、對於三個挑戰任務中的每個,將提供不一樣的數據集做爲一組視頻或圖像。

   二、經過按字母數字順序對賽道視頻(或存儲它們的文件夾的名稱)進行排序,得到每一個賽道的關聯數字視頻ID,編號從1開始

  3、對於全部3個比賽,全部像素座標都是0

  

  幀提取

    某些賽道的提交將會要求包含 幀間的ID,也就是包含感興趣的信息。爲了確保各個團隊的框架ID一致,咱們建議全部團隊使用FFmpeg庫(https://www.ffmpeg.org/)來提取/計算幀。    

 

Submission Policy (提交政策,這裏只介紹track1)

  Track 1: City-Scale Multi-Camera Vehicle Tracking  

    該數據集包含從40個攝像機收集的3.25小時(195.03分鐘)視頻,這些攝像機跨越美國中等城市的10個交叉路口.兩個最遠的同時攝像機之間的距離是2.5千米.

該數據集涵蓋了多種不一樣的位置類型,包括交叉路口,道路延伸段和高速公路。數據集分爲5個場景.只有3個場景用於訓練,其他2個場景用於測試。訓練視頻的長度爲

58.43分鐘,而測試視頻的長度爲136.60分鐘。總的來講,數據集包含229,680個邊界框在666個不一樣標書視頻的車輛身份信息。只有經過至少2個攝像頭的車輛纔有標註。

每一個視頻的分辨率至少爲960p,大多數視頻的幀速率爲10 FPS。此外,在每種狀況下,每一個視頻的起始時間偏移均可用,可用於同步。有關更多詳細信息,請參閱

ReadMe.txt文件。

  

  • Task

   團隊應該檢測並跟蹤多個攝像機的目標。提供了baseline檢測和單攝像機跟蹤結果,但團隊也可使用本身的方法.

  • Submission Format

        應提交一個文本文件,其中包含每行,檢測和跟蹤車輛的詳細信息,格式以下:

      <camera_id> <obj_id> <frame_id> <xmin> <ymin> <width> <height> <xworld> <yworld>    

 

<camera_id>   :是相機數字標識符,介於1和40之間

<obj_id>          :是每一個對象的數字標識符,它應該是一個正整數,而且對於多個攝像機中的每一個對象標識是一致的

<frame_id>     :表示當前視頻中當前幀的幀數,從1開始

<xmin>  <ymin>    <width>    <height>  :

        檢測到的對象的軸對齊矩形邊界框由圖像畫布中的像素值座標表示,<xmin> <ymin> <width> <height>,從圖像的左上角計算。全部值都是整數

<xworld> ,<yworld>         :是每一個物體的投影底點的GPS座標。它們目前還沒有用於評估,但可能在未來使用。所以,若是可能的話包括它們將是有益的。

 

包含全部預測的文本文件應命名爲track1.txt,而且可使用Zip(track1.zip)或tar + gz(track1.tar.gz)進行存檔,以減小上傳時間

 

  • Evaluation

    對於MTMC跟蹤,IDF1得分[1]將用於對每一個團隊的表現進行排名。IDF1測量正確識別的檢測與平均真實數和計算檢測數之比。

咱們的數據集提供的評估工具還計算了MOTChallenge採用的評估措施[2],[3],如多目標跟蹤精度(MOTA),多目標跟蹤精度(MOTP),

主要是跟蹤目標(MT)和誤報率(FAR)。可是,它們不會用於排名目的。將在評估系統中顯示的措施是IDF1,IDP,IDR,精確度(檢測)

和召回(檢測)。

 

對於問答

  通常問答

    1 咱們想參加。咱們須要作什麼?

      請填寫此參與意向表以列出您的機構,您的團隊以及您將參與的賽道。您只需按照說明操做並提交表格便可。

    2.我只對提交論文感興趣,但不參與挑戰。我能這樣作嗎?

      是。請務必在截止日期前提交論文。

    3.團隊有多大?

      團隊規模沒有限制。

    4.下載數據集的規則是什麼?

      在共享數據以前能夠得到參與協議。您須要接受該協議並在訪問數據集以前提交該響應      

    5.我是否可使用任何可用的數據集來訓練模型以檢測本次挑戰中的車輛?

      是。在用於執行任務的模型和方法方面沒有約束。您能夠自由使用您認爲最好的方法。

    6.獎品是什麼?

      此信息在獎勵部分中共享:https://www.aicitychallenge.org/2019-challenge-awards/

    7.咱們須要提交代碼嗎?

      獲獎團隊須要提交他們的代碼以進行驗證,以便組織者能夠確保任務是由算法而不是人類執行的。

    8.如何評估提交的內容?

      每一個賽道的提交格式在「數據和評估」頁面上詳細說明。:https://www.aicitychallenge.org/2019-data-sets/

    9.提交最終評估結果的截止日期是何時?

      評估結果將於5月10日太平洋時間上午9點公佈。請參閱更新的時間表。提交系統將在幾天後再次打開,並容許團隊提交其餘結果,但在挑選獲勝團隊時不會考慮這些結果。:https://www.aicitychallenge.org/2019-important-dates/

    10.提交的研究/挑戰文件須要多長時間?

      研究和挑戰文件的長度應爲6-8頁,並遵循CVPR格式。:http://cvpr2019.thecvf.com/submission/main_conference/author_guidelines#call_for_papers

    11. CVPRW文件提交審查的截止日期是何時?咱們只在網頁上看到提交相機的論文提交截止日期。可是,提交審查文件沒有截止日期。

      論文截止日期是5月16日,應該儘量接近相機準備審查,由於它將在很短的時間內進行審查。

    12.咱們是否容許在此挑戰中使用咱們本身的註釋數據或來自其餘數據集的訓練數據?

      是。咱們鼓勵團隊利用最早進的域名轉移來提升他們的表現。但請注意,獲獎團隊和亞軍將被要求將他們的訓練代碼和推理代碼開源,以便進行驗證,就像以前全部的AI City挑戰同樣。他們還須要明確說明他們訓練集的構成。

    組委會須要確保對該挑戰的測試數據沒有手動註釋,而且全部實驗結果均可以以自動方式再現。

    13.咱們是否容許標記(部分)轉移學習的測試數據?或者咱們能夠將測試集視爲半監督學習的未標記數據嗎?

      嚴格禁止對咱們的測試數據進行額外註釋。咱們也不鼓勵在訓練期間以任何方式使用測試數據,有或沒有標籤,由於任務應該在現實生活中獲得公平評估,咱們根本沒法訪問測試數據。最後,請記住,與以前的全部AI City挑戰同樣,

    全部獲勝方法和亞軍將被要求使其代碼開源以進行驗證。其中須要明確說明使用過的培訓數據,以確認其性能是可重複的。這就是爲何獲勝者的肯定日期晚於挑戰提交截止日期。     

 

Track 1 

   1.在某些狀況下,即便添加時間偏移,也會觀察到一些同步錯位。爲何會這樣?

                請注意,因爲視頻傳輸中的噪聲(在實際部署的系統中很常見),某些視頻中會跳過某些幀,所以它們並不徹底對齊。

   2.Mask R-CNN的基線分割結果的格式是什麼?它們如何被解碼。

    分割結果的每一行對應於「traintest/// det / det_mask_rcnn.txt」中的檢測輸出。

    爲了生成分割結果,咱們在Detectron中採用了Mask R-CNNhttps//github.com/facebookresearch/Detectron

    每一個分段掩碼是在detectron / utils / vis.py中處理vis_utils.convert_from_cls_format()以後的表示。它可使用vis_utils中的其餘函數進行可視化/顯示。

    3.咱們如何使用'calibration.txt'文件?它是從GPS2D圖像像素位置的矩陣,在amilan-motchallenge-devkit / utils / camera中有一些關於圖像到世界投影的工具,但咱們如何才能正確使用代碼呢?

     a  、大家中的許多人對咱們爲第1軌提供的校準基線的低投影精度表示擔心。這主要是因爲校準參數的精度低(小數點後最多7位)。咱們更新了校準工具,以實現最大可能的輸出精度(小數點後最多15位)。更新的校準結果,配置參數和可視化都可在此處得到。 ReadMe.txt中描述了詳細信息。(https://drive.google.com/open?id=1aV2o0uGh3714XYAWc2sVXc2dnv90yC2i)

     b、咱們用於校準的工具也可在此公開得到(https://github.com/zhengthomastang/Cal_PnP),咱們主要依靠OpenCV庫進行單應操做。對於從GPS2D像素位置的投影,您能夠簡單地將矩陣乘法應用於咱們提供的單應矩陣。

對於從2D像素位置到GPS的反投影,首先計算單應矩陣的逆(在OpenCV中使用invert()),而後應用矩陣乘法。「amilan-motchallenge-devkit / utils / camera」中的圖像到世界投影方法也能夠以相似的方式提供幫助。

     c、您也能夠隨意使用您選擇的任何其餘校準技術來生成您本身的校準結果。在更新的校準結果中,爲魚眼攝像機提供了固有參數矩陣和失真係數(一個在訓練集中,另外一個在測試集中)。

請注意,雖然GPS位置表示爲角度值而不是平面上的座標,因爲兩個攝像機之間的最長距離與地球周長(40,075 km)相比很是小(3 km),所以它們仍然能夠安全地視爲線性座標系。

   4.若是沒有固有的攝像機參數,咱們如何校訂魚眼攝像機的徑向畸變?

    有許多簡單的方法來近似內在的相機參數。例如,能夠選擇焦距做爲像素中的幀寬度。能夠假設主點位於幀中心。寬高比和歪斜能夠分別設置爲10。對於徑向失真校訂,您能夠從OpenCV庫中應用cv :: undistort(),使用近似的內部相機矩陣並提供失真係數。

    最後但並不是最不重要的是,請記住,攝像機參數不隨視頻提供,所以全部給定的單應矩陣和失真係數都是手動導出的。若有必要,請隨意使用您本身選擇的方法來改進相機校準。

   5.咱們是否須要考慮汽車在多種狀況下出現的狀況?

     在賽道1中,不須要考慮跨場景出現的車輛,所以所提供的攝像機幾何結構可用於跨攝像機跟蹤。可是在Track 2中,攝像機中的全部ID都在訓練集和測試集中混合,這是一個不一樣的問題須要解決。

   6.汽車ID如何用於評估?在訓練數據中有大約200ID。可是當處理測試集時,跟蹤器可能會生成任意車輛ID。他們須要與基本事實保持一致嗎?評估是基於軌道的IOU嗎?

  咱們使用與MOTChallenge相同的指標進行評估。有關詳細信息,請參閱包中的評估工具。提交結果中的ID不須要與 ground truths 中的確切ID相匹配。咱們將使用二分匹配進行比較,這將基於邊界框的IOU

   7.咱們觀察到一些案例,即基本事實和帶註釋的邊界框不許確。標籤的標準是什麼?

     在下列狀況下,車輛未貼上標籤:

        (1)他們沒有穿過多個攝像頭;

        (2)它們與其餘車輛重疊並被NMS拆除(只有前面的車輛註明);

        (3)它們在FOV中過小(邊界框區域小於1,000像素);

                               (4)它們在框架的邊緣被裁剪,車身可見不到2/3。另外,邊界框一般註釋較大的法線以確保每一個整個車輛的徹底覆蓋,從而能夠可靠地提取諸如車輛顏色,類型和姿式的屬性以改善從新識別。

        更具體地說,每一個邊界框的寬度和高度都從中心延伸了大約20個像素。


 

關於寫 cvpr 2019 workshop 論文(accepted)一些工具和注意:

    一、搜論文使用: http://www.arxiv-sanity.com/  related相關和借鑑相關工做,很是好用

    二、寫論文,你們協做很是好用的協做工具:https://www.overleaf.com/

    三、論文主要框架(pipeline)必定要直觀,清晰,簡潔,一目瞭然.

    四、圖多,表多,對比實驗明顯,重要部分可加粗,調色.

 

具體代碼和方案論文.代碼都是開源的

AI City Challenge 2019 Track1

Team 49 (DDashcam)

github:https://github.com/didichuxing/mtmc-vt

paper: http://openaccess.thecvf.com/content_CVPRW_2019/papers/AI%20City/Li_Spatio-temporal_Consistency_and_Hierarchical_Matching_for_Multi-Target_Multi-Camera_Vehicle_Tracking_CVPRW_2019_paper.pdf

相關文章
相關標籤/搜索