對帶噪語音作噪聲抑制,在遠場語音識別和通話中都會用到,也都會碰到一個矛盾,是儘可能的消除噪聲即使對語音有損傷,仍是儘可能的不損傷語音即使保留一些噪聲呢?算法
筆者這些年,接觸了很多語音識別行業和通話行業的人,你們都在說,咱們是兩個行業,雖然噪聲抑制的原理差很少,可是一個是給機器聽的,一個是我的聽的。原理
那麼具體有什麼不一樣呢?方法
語音識別行業的說,咱們不須要降那麼幹淨,不能損傷語音,不然會影響識別的效果。大家通話行業,能夠降得狠一些,反正人的糾錯能力很強,對語音損傷一點關係不大。數據
而通話行業的說,咱們是給人聽的,溫馨度最重要,寧肯噪聲多留一點,也不能損傷語音。大家識別行業,能夠降得狠一些,反正給機器聽,能識別出來就行。行業
哈哈,兩個行業對對方的認知居然有這麼大差別,不知不覺中居然走到了一條路線上來,最終結果呢?都是但願不損傷語音。
其實語音識別行業和通話行業,對降噪的最大差異是:是否是要求按幀實時處理。
語音識別行業根據使用場景,是能夠積累必定的數據量再處理的,而通話行業,則必須是按幀實時處理。
加上這個限定,通話行業對噪聲抑制的算法要求更苛刻一些,在語音識別行業能夠用的方法,改爲按幀實時後,效果每每會打折扣。