語音識別數據增強方法（google2019年7月論文）

時間 2021-01-20

原文原文鏈接

論文：https://arxiv.org/pdf/1904.08779.pdf 要點：我們構建了一個直接作用於對數梅爾頻譜圖的增強策略，以幫助網絡學習有用的功能。出於以下目的的動機：這些功能應對時間方向的變形，頻率信息的部分丟失以及小部分語音片段具有較強的魯棒性，因此，我們選擇了以下變形來制定策略： 1.使用tensorflow的sparse_image_warp函數進行時間扭曲。給定具有τ個

>>阅读原文<<