《音視頻開發進階指南》讀書筆記（一） —— 音視頻基礎概念

時間 2019-11-07

標籤音視頻開發進階指南讀書筆記音視頻基礎概念简体版

原文原文鏈接

前言

最近要學音視頻，在圖書館借到這本《音視頻開發進階指南》，讀了一段時間以爲挺好就在某寶買了。html

之後一段時間應該都會沉浸在研究音視頻中，開個專題記錄哈每一章的讀書筆記吧(以iOS開發的角度記錄，安卓的暫時不涉及)。算法

第一章音視頻基礎概念

本章介紹了聲音、圖像、視頻的相關概念。筆者在書本的基礎上，研究了一些本身讀書時好奇的問題，而且記錄在這篇文章中。網絡

聲音的物理性質

聲波的三要素：頻率、振幅和波形。頻率表明音階的高低，振幅表明響度，波形表明音色。post

頻率越高，波長就越短。低頻聲響的波長則較長，因此其能夠更容易地繞過障礙物，所以能量衰減就小，聲音就會傳得遠。人的聽力有一個頻率範圍，大約是20Hz~20kHz。學習

響度是能量大小的反應。ui

波的形狀決定了其所表明的音色。編碼

數字音頻

將模擬信號數字化，要通過3個步驟，採樣，量化和編碼。.net

採樣

採樣：在時間軸上對信號進行數字化。對應着聲音的頻率。3d

根據奈奎斯特定理，按比聲音最高頻率高2倍以上的頻率對聲音進行採樣，通過數字化處理以後，人耳聽到的聲音質量不會被下降。因此採樣頻率通常爲44.1kHz。orm

量化

量化：在幅度軸上對信號進行數字化。對應着聲音的振幅。

好比，每一個採樣用16比特的二進制信號來表示，則範圍是[-32768, 32767]。

採樣和量化，能勾畫出波的形狀，即音色。聲波的三要素就轉化完成了。

編碼

編碼，就是按照必定的格式記錄採樣和量化後的數字數據，好比順序存儲或壓縮存儲，等等。

音頻的裸數據格式，脈衝編碼調製，英文叫PCM(Pulse Code Modulation)。

描述一段PCM數據通常須要如下幾個概念：量化格式(sampleFormat)、採樣率(sampleRate)、聲道數(channel)。

量化格式和採樣率上面提到過了，聲道數是指支持能不一樣發聲的音響的個數。不難理解，立體聲道的聲道數默認爲2個聲道。

數據比特率，即1秒時間內的比特數目。

以CD的音質爲例，量化格式（位深度）爲16比特，採樣率爲44100，聲道數爲2。

比特率 44100 * 16 * 2 = 1378.123kbps

一分鐘這類數據的存儲空間 1378.125 * 60 / 8 / 1024 = 10.09MB

音頻的壓縮

壓縮編碼的原理其實是壓縮掉冗餘信號，冗餘信號是指不能被人耳感知到的信號，包含人耳聽覺範圍以外的音頻信號以及被掩蔽掉的音頻信號等。人耳聽覺範圍以外的音頻上面提到過。被掩蔽掉的音頻信號則主要是由於人耳的掩蔽效應，主要表現爲頻域掩蔽效應與時域掩蔽效應。

書上沒有介紹掩蔽效應，估計對於應用層的開發人員來講，不用理解也能夠。但筆者仍是查閱了一番，感嘆一句，人類真奇妙。

這裏引用了百度百科的資料，不感興趣的能夠直接略過。

頻域掩蔽效應

一個強純音會掩蔽在其附近同時發聲的弱純音，這種特性稱爲頻域掩蔽，也稱同時掩蔽(simultaneous masking)。如，一個聲強爲60dB、頻率爲1000Hz的純音，另外還有一個1100Hz的純音，前者比後者高18dB，在這種狀況下咱們的耳朵就只能聽到那個1000Hz的強音。若是有一個1000Hz的純音和一個聲強比它低18dB的2000Hz的純音，那麼咱們的耳朵將會同時聽到這兩個聲音。要想讓2000Hz的純音也聽不到，則須要把它降到比1000Hz的純音低45dB。通常來講，弱純音離強純音越近就越容易被掩蔽；低頻純音能夠有效地掩蔽高頻純音，但高頻純音對低頻純音的掩蔽做用則不明顯。

因爲聲音頻率與掩蔽曲線不是線性關係，爲從感知上來統一度量聲音頻率，引入了「臨界頻帶(criticalband)」的概念。一般認爲，在20Hz到16kHz範圍內有24個臨界頻帶。

時域掩蔽效應

除了同時發出的聲音之間有掩蔽現象以外，在時間上相鄰的聲音之間也有掩蔽現象，而且稱爲時域掩蔽。時域掩蔽又分爲超前掩蔽(pre-masking)和滯後掩蔽(post-masking)，如圖12-05所示。產生時域掩蔽的主要緣由是人的大腦處理信息須要花費必定的時間。通常來講，超前掩蔽很短，只有大約5～20ms，而滯後掩蔽能夠持續50～200ms。這個區別也是很容易理解的。

下面介紹幾種經常使用的壓縮編碼格式。簡單看一下就行。

WAV 編碼

WAV 編碼的一種實現就是在PCM 數據格式的前面加上44字節，分別用來描述PCM 的採樣率、聲道數、數據格式等信息。

特色：音質很是好，大量軟件都支持。

適用場合：多媒體開發的中間文件、保存音樂和音效素材。

MP3 編碼

MP3，使用LAME 編碼的中高碼率的MP3文件，聽感上很是接近源WAV文件。

特色：音質在128Kbit/s以上表現還不錯，壓縮比比較高，大量軟件和硬件都支持，兼容性好。

適用場合：高比特率下對兼容性有要求的音樂欣賞。

AAC 編碼

特色：在小於128Kbit/s 的碼率下表現優異，而且多用於視頻中的音頻編碼。

適用場合：128Kbit/s 如下的音頻編碼，多用於視頻中音頻軌的編碼。

Ogg 編碼

特色：能夠用比MP3更小的碼率實現比MP3更好的音質，高中低碼率下均有良好的表現，兼容性不夠好，流媒體特性不支持。

適用場合：語音聊天的音頻消息場景。

關於音頻的概念，書上就介紹到以上。但筆者還有困惑，一段音頻，播放器是怎麼知道它的採樣率、聲道數、數據格式呢？

WAV文件的組成

因而筆者查閱到這篇文章WAV 文件格式。簡單點說，就是頭部的某一段，被定義下來表明的含義。因此編解碼就按照約定的意義執行。

至於其餘編碼格式，文件格式是怎麼樣的，就請讀者有須要的時候再查閱了。

圖像的物理現象

紅綠藍三種光沒法被分解，故稱爲三原色光。

假設一部手機屏幕的分辨率是 1280 * 720，說明有1280列，720行，因此整個手機屏幕就有1280 * 720 個像素點。每一個像素點由三個子像素點組成。這三個像素點分別爲紅、綠、藍，共同做用下造成一種顏色。

圖像的數值表示

RGB 表示方式

浮點表示：取值範圍爲 0.0 ~ 1.0，好比，在OpenGL ES中對每個子像素點的表示使用的就是這種表達方式。
整數表示：取值範圍爲 0 ~ 255 或者 00 ~ FF，8個比特表示一個子像素，32個比特表示一個像素，這就是相似於某些平臺上表示圖像格式的 RGBA_8888 數據格式。好比， Android 平臺上 RGB_565 的表示方法爲16比特模式表示一個像素， R 用5個比特來表示， G 用 6個比特來表示， B 用5個比特來表示。