人類可以聽到的全部聲音都稱之爲音頻,不管是說話聲、歌聲、樂器,它可能包括噪音等。在生活中又兩大場景:語音(Voice)和音樂(Music),近幾年各大廠都推出了智能音響,包括筆者本身家裏使用的天貓精靈。以及在各類短視頻、遊戲等,也都涉及大量的音頻技術。less
音頻的基礎主要包括以下:編碼
採樣頻率就是採用一段音頻,作爲樣本,由於wav使用的是數碼信號,它是用一堆數字來描述原來的模擬信號,因此它要對原來的模擬信號進行分析,咱們知道全部的聲音都有其波形,數碼信號就是在原有的模擬信號波形上每隔一段時間進行一次「取點」,賦予每個點以一個數值,這就是「採樣」,而後把全部的「點」連起來就能夠描述模擬信號了,很明顯,在必定時間內取的點越多,描述出來的波形就越精確,這個尺度咱們就稱爲「採樣頻率」。咱們最經常使用的採樣頻率是44.1kHz,它的意思是每秒取樣44100次。之因此使用這個數值是由於通過了反覆實驗(其實是那個時代纔是視頻27/1.0001時鐘作CD刻錄遺留問題),人們發現這個採樣頻率最合適,低於這個值就會有較明顯的損失,而高於這個值人的耳朵已經很難分辨,並且增大了數字音頻所佔用的空間。通常爲了達到「萬分精確」,咱們還會使用48kHz甚至96kHz的採樣頻率,實際上,96kHz採樣頻率和44.1kHz採樣頻率的區別絕對不會象44.1kHz和22kHz那樣區別如此之大。code
數碼錄音通常使用16比特、20比特或24比特製做音樂。什麼是「比特」?咱們知道聲音有輕有響,影響聲音響度的物理要素是振幅,做爲數碼錄音,必須也要能精確表示樂曲的輕響,因此必定要對波形的振幅有一個精確的描述。「比特(bit)」就是這樣一個單位,16比特就是指把波形的振幅劃爲2^16即65536個等級,根據模擬信號的輕響把它劃分到某個等級中去,就能夠用數字來表示了。和採樣頻率同樣,比特率越高,越能細緻地反映樂曲的輕響變化。20比特就能夠產生1048576個等級,表現交響樂這類動態十分大的音樂已經沒有什麼問題了。剛纔提到了一個名詞「動態」,它其實指的是一首樂曲最響和最輕的對比能達到多少,咱們也常說「動態範圍」,單位是dB,而動態範圍和咱們錄音時採用的比特率是緊密結合在一塊兒的,若是咱們使用了一個很低的比特率,那麼就只有不多的等級能夠用來描述音響的強弱,固然就不能聽到大幅度的強弱對比了。動態範圍和比特率的關係是;比特率每增長1比特,動態範圍就增長6dB。因此假如咱們使用1比特錄音,那麼咱們的動態範圍就只有6dB,這樣的音樂是不可能聽的。16比特時,動態範圍是96dB。這能夠知足通常的需求了。20比特時,動態範圍是120dB,對比再強烈的交響樂均可以應付自如了,表現音樂的強弱是綽綽有餘了。發燒級的錄音師還使用24比特,可是和採樣精度同樣,它不會比20比特有很明顯的變化,理論上24比特能夠作到144 dB的動態範圍,但其實是很難達到的,由於任何設備都不可避免會產生噪音,至少在現階段24比特很難達到其預期效果。視頻
聲卡所支持的聲道數是衡量聲卡檔次的重要指標之一,從單聲道到最新的環繞立體聲。環繞立體聲能夠得到身臨各類不一樣環境的聽覺感覺,給用戶以全新的體驗。遊戲
天然界中的聲音很是複雜,波形極其複雜,一般咱們採用的是脈衝代碼調製編碼,即PCM編碼。PCM經過抽樣、量化、編碼三個步驟將連續變化的模擬信號轉換爲數字編碼。把採樣值壓縮叫編碼(encode),造成比特流(bitstream). 把比特流還原出採樣值叫解碼(decode),統稱編解碼(codec)。ssl
根據採樣率和採樣大小能夠得知,相對天然界的信號,音頻編碼最多隻能作到無限接近,至少目前的技術只能這樣了,相對天然界的信號,任何數字音頻編碼方案都是有損的,由於沒法徹底還原。在計算機應用中,可以達到最高保真水平的就是PCM編碼,被普遍用於素材保存及音樂欣賞,CD、DVD以及咱們常見的WAV文件中均有應用。所以,PCM約定俗成了無損編碼,由於PCM表明了數字音頻中最佳的保真水準,並不意味着PCM就可以確保信號絕對保真,PCM也只能作到最大程度的無限接近。咱們而習慣性的把MP3列入有損音頻編碼範疇,是相對PCM編碼的。強調編碼的相對性的有損和無損,是爲了告訴你們,要作到真正的無損是困難的,就像用數字去表達圓周率,無論精度多高,也只是無限接近,而不是真正等於圓周率的值。開發
要算一個PCM音頻流的碼率是一件很輕鬆的事情,採樣率值×採樣大小值×聲道數 bps。以一個採樣率爲44.1KHz,採樣大小爲16bit,雙聲道的PCM編碼的WAV文件,它的數據存儲空間須要176.4KB(44100 * 16 * 2 / 8 / 1024),那麼1分鐘則約爲10.34M,這是沒法接受的。所以要下降存儲空間,也要有品質追求,那麼就有了不少的音頻壓縮技術。get
前面說過,在音頻壓縮領域,有兩種壓縮方式,分別是有損壓縮和無損壓縮,有損壓縮顧名思義就是下降音頻採樣頻率與比特率,輸出的音頻文件會比原文件小。另外一種音頻壓縮被稱爲無損壓縮,無損壓縮可以在100%保存原文件的全部數據的前提下,將音頻文件的體積壓縮的更小,而將壓縮後的音頻文件還原後,可以實現與源文件相同的大小、相同的碼率。無損壓縮格式有APE、FLAC、WavPack、LPAC、WMALossless、AppleLossless、La、OptimFROG、Shorten,而常見的、主流的無損壓縮格式只有APE、FLAC。it
PCM編碼的WAV文件是音質最好的格式, 就是在 PCM 文件前面加上 44 字節,分別描述採樣率、聲道數、數據格式等信息。class
特色:音質很是好,被大量軟件所支持。
適用於:多媒體開發、保存音樂和音效素材。
特色:音質好,壓縮比比較高,被大量軟件和硬件支持,應用普遍。
適用於:適合用於比較高要求的音樂欣賞。
特色:能夠用比mp3更小的碼率實現比mp3更好的音質,高中低碼率下均具備良好的表現。
適用於:用更小的存儲空間得到更好的音質(相對MP3)。
特色:中高碼率下,具備有損編碼中最佳的音質表現,高碼率下,高頻表現極佳。
適用於:在節省大量空間的前提下得到最佳音質的音樂欣賞。
特色:低碼率下的音質之王。
適用於:低要求下的音樂欣賞。
特色:低碼率下的音質表現難有對手。
適用於:數字電臺架設、在線試聽、低要求下的音樂欣賞。
一種新興的無損音頻編碼,能夠提供50-70%的壓縮比,雖然比起有損編碼來太不值得一提了,但對於追求完美音質的朋友簡直是天大的福音。APE能夠作到真正的無損,而不只是聽起來無損,壓縮比也要比相似的無損格式要好。
特色:音質很是好。
適用於:最高品質的音樂欣賞及收藏。
資料參考: