相對於視頻,可觀察這個現象.音頻在學習過程,就缺少了想象的空間.可是若是從原理出發,就不會那麼難了.html
聲音是什麼? 聲音是波,靠物體的振動產生學習
聲波的三要素,是頻率,振幅,波形.頻率表明音階的高低,振幅表明響度,波形則表明音色.編碼
==小貼士==加密
- 分貝(decibel),是度量聲音的強度單位,經常使用dB表示.是由美國發明家亞歷山大.格雷厄姆.貝爾 名字命名的. 長期在夜晚接受50 分貝的噪音, 容易致使心血管疾病; 55 分貝, 會對兒童學習產生負面影響; 60分貝, 讓人從睡夢中驚醒; 70 分貝,心肌梗死的發病率增長30%左右; 超過110 分貝, 可能致使永久性聽力損傷.
聲音的發生,來源於振動.人類說話,從聲帶振動發生聲音以後,通過口腔,顱腔等局部區域的反射,在通過空氣傳播到別人耳朵中.這是咱們說話到聽到的過程. 聲音的傳播,能夠經過空氣,液體,固定傳播.介質不一樣,會影響聲音的傳播速度.code
將模擬信號轉換爲數字信號的過程,分別是採樣,量化和編碼.orm
對模型信號進行採樣,採樣能夠理解爲在時間軸上對信號進行數字化. 而,根據奈斯特定理(採樣定理),按比聲音最高頻率高2倍以上的頻率對聲音進行採樣.這個過程稱爲AD轉換.cdn
好比,前面提到高質量音頻信號,其頻率範圍是20Hz-20KHz.因此採樣頻率通常是44.1KHz.這樣能夠保證採樣聲音達到20KHz也能被數字化.並且通過數字化處理後的聲音,音質也不會下降.44.1KHZ,指的是1秒會採樣44100次視頻
量化,指的是在幅度軸上對信號進行數字化.簡單的說,就是聲音波形的數據是多少位的二進制數據,一般用bit作單位.好比16比特的二進制信號來表示聲音的一個採樣.它的取值範圍[-32768,32767].一共有65536個值.如16bit、24bit。16bit量化級記錄聲音的數據是用16位的二進制數,所以,量化級也是數字聲音質量的重要指標。咱們形容數字聲音的質量,一般就描述爲24bit(量化級)、48KHz採樣,好比標準CD音樂的質量就是16bit、44.1KHz採樣.blog
既然每一個量化都是一個採樣,那麼聲音這麼多采樣,該如何將這些數據存儲起來?
什麼叫編碼? 按照必定格式記錄採樣和量化後的數據.
音頻編碼的格式有不少種,而一般所說的音頻裸數據指的是脈衝編碼調製(PCM)數據. 若是想要描述一份PCM數據,須要從以下幾個方向出發:
舉例: 以CD音質爲例,量化格式爲16bite,採樣率爲44100,聲道數爲2.這些信息描述CD音質.那麼能夠CD音質數據,比特率是多少? 44100 * 16 * 2 = 1378.125kbps
那麼一分鐘的,這類CD音質數據須要佔用多少存儲空間? 1378.125 * 60 /8/1024 = 10.09MB
若是sampleFormat更加精確或者sampleRate更加密集,那麼所佔的存儲空間就會越大,同時可以描述的聲音細節就會更加精確.
存儲在這些二進制數據便可理解爲將模型信號轉化爲數字信號.那麼轉爲數字信號以後,就能夠對這些數據進行存儲\播放\複製獲取其餘任何操做.