聲紋識別筆記(二)ivector PLDA 以及最新模型

GMM-UBM GMM:均值、方差、權重 UBM:共性特徵 i-vector MAP說話人自適應 m:UBM的均值(已知) s:把UBM針對特定說話人調整成GMM,GMM的均值(通過特徵得到) T:訓練得到 w:特定說話人的ivector 一般只更新均值,不更新方差 DNN-based ivector d-vector 輸入之前的30幀和之後的10幀,總共40幀Fbank作爲輸入,中間通過N層全連
相關文章
相關標籤/搜索