技術編輯:徐九丨發自 北京
SegmentFault 思否報道丨公衆號:SegmentFaultgit
近期,隨着市場對音視頻領域的需求和技術發展,包括阿里巴巴和微軟在內的科技巨頭都投入了大量時間和資源試圖解決聲音分離問題。github
近日,谷歌發佈了一個新的數據集 —— 自由通用聲音分離數據集,簡稱 FUSS,旨在支持開發可以從錄音混音中分離出不一樣聲音的 AI 模型。網絡
根據報告顯示,該模型的使用場景很是豐富,若是將其商業化,FUSS 可能會被用於企業用於從電話會議中提取語音。框架
這是繼谷歌和瑞士 Idiap 研究所的一項研究以後,該研究描述了兩種機器學習模型 -- 揚聲器識別網絡和頻譜掩碼網絡 -- 共同 "顯著下降了多揚聲器信號上的語音識別單詞錯誤率(WER)。dom
正如 Google Research 的科學家 John Hershey、Scott Wisdom 和 Hakan Erdogan 在一篇文章中解釋的那樣,大部分的聲音分離模型都假設混合物中的聲音數量是靜態的,它們要麼將少數聲音類型的混合物(如語音與非語音)或同一聲音類型的不一樣實例(如第一個揚聲器與第二個揚聲器)分離出來。FUSS 數據集則將焦點轉移到更廣泛的問題上,即將任意數量的聲音從彼此之間分離出來。機器學習
爲此,FUSS 數據集包括了一組不一樣的聲音,一個逼真的房間模擬器,以及將這些元素混合在一塊兒的代碼,以實現多源、多類音頻的真實性。學習
谷歌的研究人員從 FreeSound.org 中提取音頻片斷,通過過濾,排除了那些在混合在一塊兒時沒法被人類分離的聲音,他們編譯了包括 12377 個混合聲音長達 23 個小時的音頻,從中產生了 20000 個混合聲音,用於訓練 AI 模型,另外還有 1000 個混合聲音用於驗證,1000 個混合聲音用於評估。google
研究人員表示,他們使用谷歌的 TensorFlow 機器學習框架開發了本身的房間模擬器,該框架能夠生成一個具備「頻率依賴性」反射屬性的箱形房間的脈衝響應,給定一個聲源和麥克風位置。FUSS 附帶了每一個音頻樣本所使用的預計算房間脈衝響應,以及混音代碼。此外,FUSS 還提供了一個預訓練的、基於掩碼的分離模型,能夠高精度地重構多聲源混音。spa
谷歌團隊計劃開放房間模擬器的代碼,並計劃擴展該模擬器,以解決計算成本更高的聲學特性,以及具備不一樣反射特性的材料和新穎的房間形狀。視頻
"咱們但願「FUSS 數據集」可以下降新研究的門檻,特別是可以快速迭代和應用來自其餘機器學習領域的新技術來應對聲音分離的挑戰。"
GitHub 地址:
https://github.com/google-res...