DCASE2020之聲學場景分類優秀方案總結 - 知乎

DCASE(Challenge on Detection and Classification of Acoustic Scenes and Events),即聲學場景和事件檢測及分類競賽,是世界範圍內權威的聲學比賽,從2013年至今已經成功舉辦了六屆,隨着愈來愈多的頂級高校組織、權威科研機構等參與到比賽中來,DCASE在必定程度上推進了計算機聽覺的發展的快速發展。git

今年舉辦的DCASE2020截至目前已經到了中後期,這屆大賽吸引了包括亞馬遜、英特爾、高通驍龍、騰訊等國際公司和清華大學、新加坡南洋理工大學、香港中文大學等頂級高校的參與。一共分爲以下六個任務,本文主要針對Task 1聲學場景分類進行介紹,以及整理了各個參賽隊伍的技術方案,供相關研究方向的研究人員交流討論。github

  • Task 1聲學場景分類
  • Task 2用於機器狀態監視的異常聲音的無監督檢測
  • Task 3聲音事件的定位和檢測
  • Task 4家庭環境中的聲音事件監測和分離
  • Task 5時空上下文的城市聲音標記
  • Task 6自動音頻字幕

一:Task 1任務介紹

Task1包含兩個子任務:Task 1a和Task 1bflex

1.1:Task 1a任務介紹spa

a)任務要求:識別不一樣終端設備,好比手機、ipad或其它錄音設備採集的音頻,識別成不一樣的類別,具體以下圖所示。設計

b)聲學場景包括:3d

  • Airport - airport
  • Indoor shopping mall - shopping_mall
  • Metro station - metro_station
  • Pedestrian street - street_pedestrian
  • Public square - public_square
  • Street with medium level of traffic - street_traffic
  • Travelling by a tram - tram
  • Travelling by a bus - bus
  • Travelling by an underground metro - metro
  • Urban park - park

c)開發數據集:以下表所示,其中包含10個城市和9個設備的數據:3個真實設備(A、B、C)和6個模擬設備(S1-S6)。數據集提供了一個訓練/驗證分割,其中每一個設備70%的數據用於訓練,30%用於驗證,下載地址excel

d)評估數據集:包含12個城市、10個聲學場景、11個設備的數據。有五個新的設備(在開發集中不可用),真實設備D和模擬設備S7-S11,下載地址blog

1.2:Task 1b任務介紹事件

a)要求:將音頻分爲三大類:室內、室外和交通。該任務針對模型大小方面的分類問題的低複雜性解決方案,要求模型大小不超過500KB,並使用單個設備(設備A)錄製的音頻。 具體以下圖所示。ip

b)開發數據集:包含10個城市的數據。開發集的音頻總量爲40小時,下載地址

c)評估數據集:包含12個城市的數據(2個城市在開發數據集中看不到),評估數據包含30小時的音頻,下載地址

1.3:其餘條件

a)以上兩個任務Task 1a和Task 1b都可以條件下使用以下外部的模型以及數據集。

b)官方開源了兩個任務的Baseline方案。

https://github.com/toni-heittola/dcase2020_task1_baselinegithub.com

二:Task1a和Task1b的優秀方案彙總

彙總各個優秀的方案設計狀況(每一個參賽隊伍取最優方案),包括但不限於:分類器設計、數據加強方案、特徵提取方案、子模型數量、外部數據引用狀況、嵌入層設計,模型壓縮方案等等。

2.1:Task1a方案彙總

Task1a優秀方案:top1-top15 Task1a優秀方案:top16-top29

2.2:Task1b方案彙總

Task1b優秀方案:top1-top15 Task1b優秀方案:top16-top31

方案彙總若須要excel版本,請私信;以上內容爲我的整理,歡迎交流。

相關文章
相關標籤/搜索