Utterance-level Aggregation For Speaker Recognition In The Wild筆記

論文鏈接:https://arxiv.org/abs/1902.10107v1 開源代碼:http://www.robots.ox.ac.uk/~vgg/research/speakerID/ 網絡結構 輸入:每幀257維向量,256維的頻率量+1維的DC量 主幹網絡:Thin-ResNet,提取frame-level特徵 NetVLAD或GhostVLAD層:將frame-level的特徵轉換成
相關文章
相關標籤/搜索