音頻基礎知識

概述

本片文章主要介紹音頻基礎,在作音頻開發以前首先必需要對音頻的相關概念瞭解。如下是具體內容概述:ios

  • 常見的音頻格式
  • WAV
  • MP3
  • WMA
  • RA
  • APE
  • PCM
  • AAC
  • 音頻相關的參數
  • 採樣率
  • 比特率

關於ios中音頻錄製播放和編碼,可參考利用AudioQueue作音頻採集編碼和播放(附完整demo)git

常見的音頻格式

音頻文件格式專指存放音頻數據的文件的格式。存在多種不一樣的格式。算法

通常獲取音頻數據的方法是:採用固定的時間間隔,對音頻電壓採樣(量化),並將結果以某種分辨率(例如:CDDA每一個採樣爲16比特或2字節)存儲。採樣的時間間隔能夠有不一樣的標準,如CDDA採用每秒44100次;DVD採用每秒48000或96000次。所以,採樣率,分辨率和聲道數目(例如立體聲爲2聲道)是音頻文件格式的關鍵參數。網絡

有兩類主要的音頻文件格式:架構

  • 無損格式,例如WAV,PCM,ALS,ALAC,TAK,FLAC,APE,WavPack(WV)
  • 有損格式,例如MP3,AAC,WMA,Ogg Vorbis

有損文件格式是基於聲學心理學的模型,除去人類很難或根本聽不到的聲音,例如:一個音量很高的聲音後面緊跟着一個音量很低的聲音。MP3就屬於這一類文件。less

無損的音頻格式(例如FLAC)壓縮比大約是2:1,解壓時不會產生數據/質量上的損失,解壓產生的數據與未壓縮的數據徹底相同。如須要保證音樂的原始質量,應當選擇無損音頻編解碼器。例如,用免費的FLAC無損音頻編解碼器你能夠在一張DVD-R碟上存儲至關於20張CD的音樂。post

下面簡單介紹一下音頻格式的發展歷史以及技術特色。具體包括:WAV、MP三、WMA、RA、APE、AAC等。網站

WAV音頻格式

WAV音頻格式介紹

WAV是微軟公司開發的一種聲音文件格式,用於保存WINDOWS平臺的音頻信息資源,被WINDOWS平臺及其應用程序所支持。「*.WAV」格式支持MSADPCM、CCITT A LAW等多種壓縮算法,支持多種音頻位數、採樣頻率和聲道,標準格式的WAV文件和CD格式同樣,也是44.1K的採樣頻率,速率88K/秒,16位量化位數。編碼

在Windows平臺下,基於PCM編碼的WAV是被支持得最好的音頻格式,全部音頻軟件都能完美支持,因爲自己能夠達到較高的音質的要求,所以,WAV也是音樂編輯創做的首選格式,適合保存音樂素材。所以,基於PCM編碼的WAV被做爲了一種中介的格式,經常使用在其餘編碼的相互轉換之中,例如MP3轉換成WMA。加密

WAV音頻格式特色

WAV音頻格式的優勢包括:簡單的編/解碼(幾乎直接存儲來自模/數轉換器(ADC)的信號)、廣泛的認同/支持以及無損耗存儲。

WAV格式的主要缺點是須要音頻存儲空間。對於小的存儲限制或小帶寬應用而言,這多是一個重要的問題。WAV格式的另一個潛在缺陷是在32位WAV文件中的2G限制,這種限制已在爲SoundForge開發的W64格式中獲得了改善。

常見的WAV文件使用PCM無壓縮編碼,這使WAV文件的質量極高,體積也出奇大,對於PCM WAV,恐怕也只有無損壓縮的音頻才能和其有相同的質量,平時咱們見的什麼mp3,wma(不含 wmalossless)和wav的質量都是差很遠的!這點能夠經過頻譜看出,即便320kbps的mp3和wav一比,也要自卑了!

MP3音頻格式

MP3音頻格式介紹

MP3全稱是動態影像專家壓縮標準音頻層面3(Moving Picture Experts Group Audio Layer III)。是當今較流行的一種數字音頻編碼和有損壓縮格式,它設計用來大幅度地下降音頻數據量,而對於大多數用戶來講重放的音質與最初的不壓縮音頻相比沒有明顯的降低。它是在1991年由位於德國埃爾朗根的研究組織Fraunhofer-Gesellschaft的一組工程師發明和標準化的。

所謂的MP3也就是指的是MPEG標準中的音頻部分,也就是MPEG音頻層。根據壓縮質量和編碼處理的不一樣分爲3層,分別對應*.mp1/*.mp2/*.mp3這3種聲音文件。須要提醒你們注意的地方是:MPEG音頻文件的壓縮是一種有損壓縮,MPEG3音頻編碼具備10:1~12:1的高壓縮率,同時基本保持低音頻部分不失真,可是犧牲了聲音文件中12KHz到16KHz高音頻這部分的質量來換取文件的尺寸,相同長度的音樂文件,用*.mp3格式來儲存,通常只有*.wav文件的1/10,而音質要次於CD格式或WAV格式的聲音文件。因爲其文件尺寸小,音質好;因此在它問世之初尚未什麼別的音頻格式能夠與之匹敵,於是爲*.mp3格式的發展提供了良好的條件。

目前最爲經常使用的音頻格式是MP3,MP3是一種有損壓縮的音頻格式,設計這種格式的目的就是爲了大幅度的減少音頻的數據量,它捨棄PCM音頻數據中人類聽覺不敏感的部分。

MP3格式中的數據一般由兩部分組成,一部分爲ID3用來存儲歌名、演唱者、專輯、音軌數等信息,另外一部分爲音頻數據。音頻數據部分以幀(frame)爲單位存儲,每一個音頻都有本身的幀頭,如圖所示就是一個MP3文件幀結構圖(圖片一樣來自互聯網)。MP3中的每個幀都有本身的幀頭,其中存儲了採樣率等解碼必須的信息,因此每個幀均可以獨立於文件存在和播放,這個特性加上高壓縮比使得MP3文件成爲了音頻流播放的主流格式。幀頭以後存儲着音頻數據,這些音頻數據是若干個PCM數據幀通過壓縮算法壓縮獲得的,對CBR的MP3數據來講每一個幀中包含的PCM數據幀是固定的,而VBR是可變的。

image

MP3音頻格式的特色

  1. MP3是一個數據壓縮格式。
  2. 它丟棄掉脈衝編碼調製(PCM)音頻數據中對人類聽覺不重要的數據(相似於JPEG是一個有損圖像壓縮),從而達到了小得多的文件大小。
  3. MP3音頻能夠按照不一樣的位速進行壓縮,提供了在數據大小和聲音質量之間進行權衡的一個範圍。MP3格式使用了混合的轉換機制將時域信號轉換成頻域信號。
  4. 32波段多相積分濾波器(PQF)。
  5. 36或者12 tap 改良離散餘弦濾波器(MDCT);每一個子波段大小能夠在0...1和2...31之間獨立選擇。
  6. MP3不只有普遍的用戶端軟件支持,也有不少的硬件支持好比便攜式媒體播放器(指MP3播放器)DVD和CD播放器。

WMA音頻格式

WMA音頻格式介紹

WMA(Windows Media Audio),它是微軟公司推出的與MP3格式齊名的一種音頻格式。因爲WMA在壓縮比和音質方面都超過了MP3,更是遠勝於RA(Real Audio),即便在較低的採樣頻率下也能產生較好的音質。通常使用Windows Media Audio編碼格式的文件以WMA做爲擴展名,一些使用Windows Media Audio編碼格式編碼其全部內容的純音頻ASF文件也使用WMA做爲擴展名。

WMA就是Windows Media Audio編碼後的文件格式。微軟聲稱,在只有64kbps的碼率狀況下,WMA能夠達到接近CD的音質。和以往的編碼不一樣,WMA支持防複製功能,它支持經過Windows Media Rights Manager 加入保護,能夠限制播放時間和播放次數甚至於播放的機器等等。WMA支持流技術,即一邊讀一邊播放,所以WMA能夠很輕鬆的實如今線廣播。

WMA音頻格式特色

  1. 在128kbps及如下碼流的試聽中WMA徹底超過了MP3格式,低碼流之王不是浪得虛名的,所以WMA很是適合用於網絡流媒體。
  2. 當碼流上升到128kbps之後,WMA的音質並無如MP3同樣隨着碼流的提升而大大提高。同音源的一個320kbps的MP3與192kbps的WMA相比,音質和渲染力很容易分別出是MP3較優。所以對於有更高要求的用戶來講WMA並非一個適合的格式。
  3. WMA 7以後的WMA支持證書加密,未經許可(即未得到許可證書),即便是非法拷貝到本地,也是沒法收聽的。

RA音頻格式

RA音頻格式介紹

RA的全稱是RealAudio,是RealNetworks公司成熟的音頻格式,它是一種能夠在網絡上實時傳送和播放的音樂文件,是目前網絡上比較流行的流媒體技術。此類文件格式有如下幾個主要形式:RA(RealAudio)、RM(RealMedia,RealAudio G2)、RMX(RealAudio Secured),這些格式統稱爲「Real」。

RA格式流媒體技術起源於窄帶互聯網時期。因爲經濟發展的須要,人們迫切渴求一種網絡技術,以便進行遠程信息溝通。從1994年一家叫作progressivenetworks的美國公司成立之初,流媒體開始正式在互聯網上登場亮相。1995年,他們推出了c/s架構的音頻接受系統realaudio,並在隨後的幾年內引領了網絡流式技術的洶涌潮流。1997年9月,該公司改名爲realnetworks,相繼發佈了多款應用很是普遍的流媒體播放器realplayer系列,在其鼎盛時期,曾一度佔據該領域超過85%的市場份額。

RA音頻格式的特色

RA採用的是有損壓縮技術,因爲它的壓縮比至關高,所以音質相對較差,可是文件也是最小的,所以在高壓縮比條件下表現好,但若在中、低壓縮比條件下時,表現卻反而不及其餘同類型檔案格式了。此外RA能夠隨網絡帶寬的不一樣而改變聲音質量,以使用戶在獲得流暢聲音的前提下,儘量高地提升聲音質量。因爲RA格式的這些特色,所以特別適合在網絡傳輸速度較低的互聯網上使用,互聯網上許多的網絡電臺、音樂網站的歌曲試聽都在使用這種音頻格式。

APE音頻格式

APE音頻格式介紹

APE是Monkey's Audio提供的一種無損壓縮格式。在APE出現以前,音樂迷們都認爲以CD或者WAV來保存本身喜歡的音樂素材是最好的方法了,但APE的出現,足以使他們改變這種見解,由於APE既能夠保持音樂信號的無損,又能夠以比WAV高得多的壓縮率(接近2:1)壓縮WAV文件,並且能夠無須解壓而直接播放。因爲壓縮後的APE文件只有原文件一半左右大小,APE格式受到了許多音樂愛好者的喜好,特別是對於但願經過網絡傳輸音頻CD的朋友來講,APE能夠幫助他們節約大量的資源。APE如此流行,在網上也比較容易能下載到APE格式的文件。

APE音頻格式的特色

APE的本質,其實它是一種無損壓縮音頻格式。它是從龐大的WAV音頻文件壓縮而來,固然仍是要比MP3格式的文件要大。龐大的WAV音頻文件,能夠經過Monkey''sAudio這個軟件進行「瘦身」壓縮爲APE。很時候它被用作網絡音頻文件傳輸,由於被壓縮後的APE文件容量要比WAV源文件小一半多,能夠節約傳輸所用的時間。更重要的是,經過Monkey''s Audio解壓縮還原之後獲得的WAV文件能夠作到與壓縮前的源文件徹底一致。因此APE被譽爲「無損音頻壓縮格式」,Monkey''s Audio被譽爲「無損音頻壓縮軟件」。與採用WinZip或者WinRAR這類專業數據壓縮軟件來壓縮音頻文件不一樣,壓縮以後的APE音頻文件是能夠直接被播放的。

相比於MP三、WMA等格式,APE能夠用完勝來形容,APE的採樣率最高可達1400kbps,接近於音樂CD格式的1411.2kbps,而咱們平常使用的壓縮格式的音樂,例如:MP三、WMA等,大多隻是爲128kbps。

PCM

目前咱們在計算機上進行音頻播放都須要依賴於音頻文件,音頻文件的生成過程是將聲音信息採樣、量化和編碼產生的數字信號的過程,人耳所能聽到的聲音,最低的頻率是從20Hz起一直到最高頻率20KHZ,所以音頻文件格式的最大帶寬是20KHZ。根據奈奎斯特的理論,只有採樣頻率高於聲音信號最高頻率的兩倍時,才能把數字信號表示的聲音還原成爲原來的聲音,因此音頻文件的採樣率通常在40~50KHZ,好比最多見的CD音質採樣率44.1KHZ。

對聲音進行採樣、量化過程被稱爲脈衝編碼調製(Pulse Code Modulation),簡稱PCM。PCM數據是最原始的音頻數據徹底無損,因此PCM數據雖然音質優秀但體積龐大,爲了解決這個問題前後誕生了一系列的音頻格式,這些音頻格式運用不一樣的方法對音頻數據進行壓縮,其中有無損壓縮(ALAC、APE、FLAC)和有損壓縮(MP三、AAC、OGG、WMA)兩種。

AAC音頻格式

AAC音頻格式介紹

AAC(Advanced Audio Coding),中文稱爲「高級音頻編碼」,出現於1997年,基於 MPEG-2的音頻編碼技術。由Fraunhofer IIS、杜比實驗室、AT&T、Sony(索尼)等公司共同開發,目的是取代MP3格式。2000年,MPEG-4標準出現後,AAC 從新集成了其特性,加入了SBR技術和PS技術,爲了區別於傳統的 MPEG-2 AAC 又稱爲 MPEG-4 AAC。

AAC號稱「最大能容納48通道的音軌,採樣率達96 KHz,而且在320Kbps的數據速率下能爲5.1聲道音樂節目提供至關於ITU-R廣播的品質」。和MP3比起來,它的音質比較好,也可以節省大約30%的儲存空間與帶寬。

AAC音頻格式的特色

  1. 提高的壓縮率:能夠以更小的文件大小得到更高的音質,一樣是128Kbps,AAC格式的音質明顯好於MP3
  2. 支持多聲道:可提供最多48個全音域聲道
  3. 更高的解析度:最高支持96KHz的採樣頻率
  4. 提高的解碼效率:解碼播放所佔的資源更少
  5. AAC屬於有損壓縮的格式,與時下流行的APE、FLAC等無損格式相比音質仍然存在「本質上」的差距。

總的來說,AAC能夠說是極爲全面的編碼方式,一方面,多聲道和高採樣率的特色使得它很是適合將來的DVD-Audio;另外一方面,低碼率下的高音質則使它也適合移動通信、網絡電話、在線廣播等領域,真是全能的編碼方式。

音頻相關參數

採樣率

採樣率(也稱爲採樣速度或者採樣頻率)定義了每秒從模擬信號中提取並組成數字信號的採樣個數,它用赫茲(Hz)來表示。採樣頻率的倒數叫做採樣週期或採樣時間,它是採樣之間的時間間隔。

採樣頻率只能用於週期性採樣的採樣器,對於非週期性採樣的採樣器沒有規則限制

採樣定理

採樣定理代表採樣頻率必須大於被採樣信號帶寬的兩倍,另一種等同的說法是奈奎斯特頻率必須大於被採樣信號的帶寬。 若是信號的帶寬是100Hz,那麼爲了不混疊現象採樣頻率必須大於200Hz。換句話說就是採樣頻率必須至少是信號中最大頻率份量頻率的兩倍,不然就不能從信號採樣中恢復原始信號。

正常人聽覺的頻率範圍大約是20HZ~20kHZ之間,根據奈奎斯特理論(只有採樣頻率高於聲音信號最高頻率的兩倍時,才能把數字信號表示的聲音還原成爲原來的聲音),爲了保證聲音不失真,採樣頻率應該在40KHz左右。經常使用的音頻採樣頻率有8kHz、11.025kHz、22.05kHz、16kHz、37.8kHz、44.1kHz、48kHz等。

經常使用的採樣率

在數字音頻領域,經常使用的採樣率有:

  • 8,000 Hz - 電話所用採樣率,對於人的說話已經足夠
  • 11,025 Hz
  • 22,050 Hz - 無線電廣播所用採樣率
  • 32,000 Hz - miniDV數碼視頻camcorder、DAT(LP mode)所用採樣率
  • 44,100 Hz - 音頻CD,也經常使用於MPEG-1音頻(VCD, SVCD, MP3)所用採樣率
  • 47,250 Hz - Nippon Columbia(Denon)開發的世界上第一個商用PCM錄音機所用採樣率
  • 48,000 Hz - miniDV、數字電視、DVD、DAT、電影和專業音頻所用的數字聲音所用採樣率
  • 50,000 Hz - 二十世紀七十年代後期出現的3M和Soundstream開發的第一款商用數字錄音機所用採樣率
  • 50,400 Hz - 三菱X-80數字錄音機所用所用採樣率
  • 96,000或者192,000 Hz - DVD-Audio、一些LPCM DVD音軌、Blu-ray Disc(藍光碟)音軌、和HD-DVD(高清晰度DVD)音軌所用所用採樣率
  • 2.8224 MHz - SACD、索尼和飛利浦聯合開發的稱爲Direct Stream Digital的1位sigma-delta modulation過程所用採樣率。

比特率

比特率是指每秒傳送的比特(bit)數。單位爲 bps(Bit Per Second),比特率越高,傳送的數據越大,音質越好。

採樣率和比特率對音頻的影響

能夠這樣講,採樣率和比特率就像是座標軸上的橫縱座標,橫座標的採樣率表示了每秒鐘的採樣次數,縱座標的比特率表示了用數字量來量化模擬量的時候的精度。

採樣率相似於動態影像的幀數,好比電影的採樣率是24赫茲,PAL制式的採樣率是25赫茲,NTSC制式的採樣率是30赫茲。當咱們把採樣到的一個個靜止畫面再以採樣率一樣的速度回放時,看到的就是連續的畫面。一樣的道理,把以44.1kHZ採樣率記錄的CD以一樣的速率播放時,就能聽到連續的聲音。顯然,這個採樣率越高,聽到的聲音和看到的圖像就越連貫。固然,人的聽覺和視覺器官能分辨的採樣率是有限的,基本上高於44.1kHZ採樣的聲音,絕大部分人已經覺察不到其中的分別了。

而聲音的位數就至關於畫面的顏色數,表示每一個取樣的數據量,固然數據量越大,回放的聲音越準確,不至於把開水壺的叫聲和火車的鳴笛混淆。一樣的道理,對於畫面來講就是更清晰和準確,不至於把血和西紅柿醬混淆。不過受人的器官的機能限制,16位的聲音和24位的畫面基本已是普通人類的極限了,更高位數就只能靠儀器才能分辨出來了。好比電話就是3kHZ取樣的7位聲音,而CD是44.1kHZ取樣的16位聲音,因此CD就比電話更清楚。

當你理解了以上這兩個概念,比特率就很容易理解了。以電話爲例,每秒3000次取樣,每一個取樣是7比特,那麼電話的比特率是21000。而CD是每秒44100次取樣,兩個聲道,每一個取樣是13位PCM編碼,因此CD的比特率是44100213=1146600,也就是說CD每秒的數據量大約是144KB,而一張CD的容量是74分等於4440秒,就是639360KB=640MB

根據採樣率和比特率算音頻大小

CD音質的文件:

44.1kHz * 16bit * 2通道 = 1411200 bit/s = 1411 kbps

這就是CD音質音頻文件,每秒有141萬位信息,換算一下: 1411200bps/8/1024/1024 = 0.168MB

一首3分鐘20秒的音樂算下來就是33.6MB,這大概是無損音樂的大小。下面是網易雲音樂的無損音樂大概大小截圖:

參考

相關文章
相關標籤/搜索