探祕身份認證利器——聲紋識別!

探祕身份認證利器——聲紋識別!

聲紋識別神祕面紗

在這個移動互聯網大行其道的年代,人們不用互相見面就能夠完成不少事情,好比社交、購物、網上開店、金融交易等等,可是如何驗證身份變成了人和人在不見面的狀況下最難的事情。傳統的解決方案就是密碼或者祕鑰,它須要你記住或者存起來,容易忘又容易丟,還容易被黑客利用各類手段攻擊。有多少人使用「123456「這種簡單密碼在網絡上行走,他們就是黑客們最喜歡的目標;你家的路由器是否是還在用」admin」這種默認密碼,這就是物聯網領域中安全最薄弱的環節。不過,好在咱們每一個人身上都長滿了「活密碼」,指紋、臉、聲音、眼睛等等,都是人和人之間相互區分的獨一無二的標識,咱們稱之爲「生物特徵」。聲音就是這種一種能夠反映人身份的生物特徵,參考「指紋」的命名方式,咱們能夠叫它「聲紋」。算法

 

各類生物特徵比較後端

聲紋是指人類語音中攜帶言語信息的聲波頻譜,它同指紋同樣,具有獨特的生物學特徵,具備身份識別的做用,不只具備特定性,並且具備相對的穩定性。聲音信號是一維連續信號,將它進行離散化後,就能夠獲得咱們如今常見的計算機能夠處理的聲音信號。安全

 

計算機能夠處理的離散聲音信號網絡

聲紋識別(也稱說話人識別)技術也如同如今在智能手機上應用十分普遍的指紋識別技術同樣,從說話人發出的語音信號中提取語音特徵,並據此對說話人進行身份驗證的生物識別技術。每一個人都具備獨一無二的聲紋,這是由咱們的發聲器官在成長過程當中逐漸造成的特徵。不管別人對咱們的說話模仿的多麼類似,聲紋其實都是具備顯著區別的。框架

現實生活中的「未見其人,先聞其聲」就是人類經過聲音去識別另外一我的身份的真實描述,你媽甚至經過你電話裏的一個「喂」字就知道是你,而不是隔壁老王家的兒子打的電話,這是咱們人類通過長期進化所得到到的超常的能力。雖然目前計算機還作不到經過一個字就判斷出人的身份,可是利用大量的訓練語音數據,能夠學出一個「智商」還不錯的「聲紋」大腦,它在你說出8-10個字的狀況下能夠判斷出是否是你在說話,或者在你說1分鐘以上的話後,就能夠準確地判斷出你是不是給定的1000人中的一員。這裏面其實包含了大部分生物識別系統都適用的重要概念:1:1 和 1:N,同時也包含了只有在聲紋識別技術中存在的獨特的概念:內容相關和內容無關。機器學習

工做原理

對於一個生物識別系統而言,若是它的工做模式是須要你提供本身的身份(帳號)以及生物特徵,而後跟以前保存好的你本人的生物特徵進行比對,確認二者是否一致(即你是否是你),那麼它是一個1:1的識別系統(也能夠叫說話人確認,Speaker Verification);若是它只須要你提供生物特徵,而後從後臺多條生物特徵記錄中搜尋出哪一個是你(即你是誰),或者哪一個都不是你,那麼它是一個1:N的識別系統(也能夠叫辨認,Speaker Identification),見圖1。技術上,簡單的聲紋識別的系統工做流程圖來見圖2。性能

 

圖1 說話人確認和說話人辨認學習

 

圖2 聲紋識別工做流程圖測試

對於聲紋識別系統而言,若是從用戶所說語音內容的角度出發,則能夠分爲內容相關和內容無關兩大類技術。顧名思義,「內容相關」就是指系統假定用戶只說系統提示內容或者小範圍內容許的內容,而「內容無關」則並不限定用戶所說內容。前者只須要識別系統可以在較小的範圍內處理不一樣用戶之間的聲音特性的差別就能夠,因爲內容大體相似,只須要考慮聲音自己的差別,難度相對較小;然後者因爲不限定內容,識別系統不只須要考慮用戶聲音之間的特定差別,還須要處理內容不一樣而引發的語音差別,難度較大。設計

目前有一種介於二者之間的技術,能夠稱之爲「有限內容相關」,系統會隨機搭配一些數字或符號,用戶需正確念出對應的內容纔可識別聲紋,這種隨機性的引入使得文本相關識別中每一次採集到的聲紋都有內容時序上的差別,這種特性正好與互聯網上普遍存在的短隨機數字串(如數字驗證碼)相契合,能夠用來校驗身份,或者和其餘人臉等生物特徵結合起來組成多因子認證手段。

具體到聲紋識別算法的技術細節,在特徵層面,經典的梅爾倒譜系數MFCC,感知線性預測係數PLP、深度特徵Deep Feature、以及能量規整譜系數PNCC 等,均可以做爲優秀的聲學特徵用於模型學習的輸入,但使用最多的仍是MFCC特徵,也能夠將多種特徵在特徵層面或者模型層面進行組合使用。在機器學習模型層面,目前仍是N.Dehak在2009年提出的iVector框架一統天下,雖然在深度學習大紅大紫的今天,聲紋領域也不免被影響,在傳統的UBM-iVector框架下衍化出了DNN-iVector,也僅僅是使用DNN(或者BN)提取特徵代替MFCC或者做爲MFCC的補充,後端學習框架依然是iVector。

圖3示出了一個完整的聲紋識別系統的訓練和測試流程,能夠看到在其中iVector模型的訓練以及隨後的信道補償模型訓練是最重要的環節。在特徵階段,可使用BottleNeck特徵取代或者補充MFCC特徵,輸入到iVector框架中訓練模型,如圖4所示。

 

圖3 聲紋識別算法的完整訓練和識別框架

 

圖4 使用BottleNeck特徵訓練iVector模型

在系統層面,不一樣的特徵及模型,能夠從不一樣的維度刻畫說話人的聲音特徵,加上有效的分數規整,將各子系統融合能有效的提升系統的總體性能。

 

在這次的阿里聚安全攻防挑戰賽,參賽選手即可以真實的感覺這一過程。

由阿里巴巴集團安所有主辦的「阿里聚安全攻防挑戰賽」即日起在天池平臺開始報名。據瞭解此類比賽已成功舉辦過兩屆,並逐漸成爲安全行業經典賽事品牌,主要是讓參賽選手真實的挑戰阿里巴巴移動安全和業務安全的防護。

本屆挑戰賽的最大亮點之一就是聲紋身份驗證攻防。參賽者能夠嘗試用聲音攻擊一套聲紋驗證系統,經過設計攻擊用的音頻騙過聲紋驗證系統,讓系統驗證成功。

相關文章
相關標籤/搜索