基於SincNet的原始波形說話人識別

speaker recognition from raw waveform with SincNet Mirco Ravanelli, Yoshua Bengio   作爲一種可行的替代i-vector的說話人識別方法,深度學習正日益受到歡迎。利用卷積神經網絡(CNNs)直接對原始語音樣本進行處理,取得了良好的效果。而不是使用標準的手工製作的功能,後一種CNNs從波形中學習低電平的語音表示,潛在地
相關文章
相關標籤/搜索