Deep Speaker筆記

時間 2021-01-04

原文原文鏈接

結構圖及解析輸入：每個miniBatch的數據格式爲（N, C, H, W），N爲batch_size， C爲通道數，此處的數目爲3，順序爲(fbank二階倒數)delta2 (fbank一階倒數)delta1 fbank， H文章中爲時間幀數，該參數是可變的，但是在每個miniBatch中是一樣的， W爲每幀的特徵數目，文章中取值爲64。 Deep architecture: ResCNN d

>>阅读原文<<