語音識別數據增強方法(google2019年7月論文)

論文:https://arxiv.org/pdf/1904.08779.pdf 要點: 我們構建了一個直接作用於對數梅爾頻譜圖的增強策略,以幫助網絡學習有用的功能。 出於以下目的的動機:這些功能應對時間方向的變形,頻率信息的部分丟失以及小部分語音片段具有較強的魯棒性,因此,我們選擇了以下變形來制定策略: 1.使用tensorflow的sparse_image_warp函數進行時間扭曲。給定具有τ個
相關文章
相關標籤/搜索