視頻處理相關概念

時間 2019-11-18

標籤視頻處理相關概念简体版

原文原文鏈接

去隔行

「去隔行」對應的英文爲deinterlacing。簡單地說，去 隔行就是把隔行視頻轉換爲逐行視頻。一般這是一個數據量加倍而信息量不變的過程。

主要包括如下步驟：

（1）經過對捕獲的圖像與靜態背景的比對檢測出運動物體，並 獲得初步的運動矢量；

（2）經過基於分塊的圖像匹配，選擇一幅場中包含運動物體的分塊做爲目標分塊，再根據候選分塊肯定匹配分塊，進而獲得精確的運動矢量；

（3）利用運動矢量從兩幅場中獲得完整的一幀圖像。

音軌
媒體中的一個音頻流

音軌就是你在音序器軟件中看到的一條一條的平行「軌道」。每條音軌分別定義了該條音軌的屬性，如音軌的音色，音色庫，通道數，輸入/輸出端口，音量等。
聲道
聲音在錄製或回放時候在不一樣的空間位置採集或回放的相互獨立的音頻信號

聲道(Sound Channel) 是指聲音在錄製或播放時在不一樣空間位置採集或回放的相互獨立的音頻信號，因此聲道數也就是聲音錄製時的音源數量或回放時相應的揚聲器數量。聲卡所支持的聲道

聲卡所支持的聲道數是衡量聲卡檔次的重要指標之一，從單聲道到最新的環繞立體聲。

混音
N個聲道的數據混合到一個聲道播放
採樣率
採樣頻率，每秒從連續信號中提取並組成離散信號的採樣個數

HLS
HTTP Live Streaming.
Apple的動態碼率自適應技術。主要用於PC和Apple終端的音視頻服務。包括一個m3u(8)的索引文件，TS媒體分片文件和key加密串文件
平時的直播技術中,播放模式中必須等待整個文件下載完才行，在 HLS 技術中 Web 服務器向客戶端提供接近實時的音視頻流。
M3U
m3u格式的文件只是存儲多媒體播放列表，裏面沒有任何音視頻數據,它提供了一個指向其餘位置的音頻視頻文件的索引，你播放的仍是那些被指向的文件，用記事本打開m3u文件能夠查看所指向文件的地址及文件的屬性，以選用合適播放器播放。
M3U8
M3U8也是一種M3U，只是它的編碼格式是UTF-8格式

視頻：
1080P解碼、去隔行、馬賽克掩蓋、視角比切換、靜幀切臺、幀率轉換、局部縮放.
音頻：
音軌切換、聲道切換、杜比認證、ByPass、 DownMix、Mono、ID3

杜比音效

杜比定向邏輯環繞聲（Dolby Pro Logic）是美國杜比公司開發的環繞聲系統。它是把四聲道立體聲在錄製時經過特定的編碼手段合成爲兩聲道，即將原來的左聲道（L）、右聲道（R）、中置聲道（C）、環繞聲道（S）的4個信號，經編碼後合成爲LT、RT複合雙聲道信號，重放時經過解碼器將已編碼的雙聲道複合信號LT和RT還原爲編碼的左、右、中、環繞四個互不幹猶的獨立信號，經放大後分別輸入左音箱、右音箱、中置音箱和環繞音箱。git

SPDIF

Sony/Philips Digital Interface Format

是SONY、PHILIPS數字音頻接口的簡稱。就傳輸方式而言，SPDIF分爲輸出（SPDIF OUT）和輸入（SPDIF IN）兩種。目前大多數的聲卡芯片都可以支持SPDIF OUT，但咱們須要注意，並非每一種產品都會提供數碼接口。而支持SPDIF IN的聲卡芯片則相對少一些，如：EMU10K一、YMF-744和FM801-AU、CMI8738等。SPDIF IN在聲卡上的典型應用就是CD SPDIF，但也並非每一種支持SPDIF IN的聲卡都提供這個接口。

就傳輸載體而言，SPDIF又分爲同軸和光纖兩種，其實他們可傳輸的信號是相同的，只不過是載體不一樣，接口和連線外觀也有差別。但光信號傳輸是從此流行的趨勢，其主要優點在於無需考慮接口電平及阻抗問題，接口靈活且抗干擾能力更強。經過SPDIF接口傳輸數碼聲音信號已經成爲了新一代PCI聲卡廣泛擁有的特色。

S/PDIF每每被用來傳輸壓縮過的音頻訊號，它由 IEC 61937標準而定製。

它一般被用在支持杜比技術或DTS 環繞效果的家用DVD影院上。

另外一種是由CD機傳輸原始音頻訊號至音頻接收端。

固然，部分支持Dolby 或DTS技術的家用電腦、筆記本也裝載了S/PDIF。

a、SPDIF是傳輸通道

首先須要特別解釋的是，你們不要覺得使用SPDIF傳輸AC-3信號就是AC-3解碼，目前民用聲卡中尚未一款產品可以支持硬件等級的Dolby Digital解碼，SPDIF在此時的功能主要是把數字AC-3信號從聲卡傳輸到解碼器。

sudo aptitude install ffmpeg
ffplay xxxx.mkv
ffprobe xxxx.mkv

2.1 關於 frame 的一些基礎知識
b.幀速率:幀速率是每秒顯示的圖像數。標準影片(NTSC) 是 29.97 幀第秒 (fps),電影是每秒
24 幀 fps。歐洲標準是(PAL) 25 幀 fps。
c. 關鍵幀:不少編碼軟件使用 frame differencing(幀差別)來壓縮圖像。幀差別實際上是判斷從
開始幀起哪些信息發生了變化 (稱爲 key frame 關鍵幀)。關鍵幀包含了圖像的全部信息。
後來的幀僅包含改變了的信息。對於通常的用途,一個比較好的原則是每 5
秒設一個關鍵幀。若是你正在創建一個 RTSP 流文件,而且關心傳輸網絡
的可靠度,你可能要 1 到 2 秒增長一個關鍵幀。要讓編碼軟件來處理關鍵幀的間隔,選擇
Automatic。針對 H.264,咱們推薦讓編碼軟件來肯定關鍵幀的間隔,爲
此你要選擇 Automatic 以得到最佳品質。
e.碼率:一般狀況下,高碼率就有高的品質,但文件也會很大。在大多數狀況下,你要根據
你觀看的影片設置碼率,例如,對於 384K 鏈接速度,你要限制碼率爲
350-360k 每秒來留一些帶寬給網絡傳輸。若是文件是下載回來後播放,那碼率能夠很高(高
碼率,然而,網速比較慢的用戶將要花比較長的時間來等待播放的開
始)
。另外,記住在對話框中設置碼率時,你要留一些空間給音頻。
針對 H.264, 這裏有一些經常使用的碼率方案:
§ 畫面尺寸 1920 x 1080 (真正高清), 選擇碼率爲 7,000-8,000 Kbps。
§ 畫面尺寸 1280 x 720 (通用高清), 選擇碼率爲 5,000-6,000 Kbps。
§ 畫面尺寸 640 x 480 (標清), 選擇碼率爲 1,000-2,000 Kbps。
§ 畫面尺寸 320 x 240 (網絡傳輸), 選擇碼率爲 300-500 Kbps。
§ 畫面尺寸 176 x 144 (3G), 10-15 fps 的內容選擇碼率爲 50-60 Kbps, 24-30 fps 的內容選
擇碼率爲 150-200 Kbps。
2.1 時間戳
音視頻同步-時間戳
媒體內容在播放時,最使人頭痛的就是音視頻不一樣步。從技術上來講,解決音視頻同步
問題的最佳方案就是時間戳: 首先選擇一個參考時鐘(要求參考時鐘上的時間是線性遞增的);生成數據流時依據參考時鐘上的時間給每一個數據塊都打上時間戳(一
般包括開始時間和結束時間);在播放時,讀取數據塊上的時間戳,同時參考當前參考時鐘上的時間來安排播放(若是數據塊的開始時間大於當前參考時鐘上的時間,則不急於播放該數據塊,直到參考時鐘達到數據塊的開始時間;若是數據塊的開始時間小於當前參考時鐘上的時間,則「儘快」播放這塊數據或者索性將這塊數
據「丟棄」,以使播放進度追上參考時鐘)。
可見, 避免音視頻不一樣步現象有兩個關鍵——一是 在生成數據流時要打上正確的時間戳。
若是數據塊上打的時間戳自己就有問題,那麼播放時再怎麼調整也於事無補。假如,視頻流內容是從 0s 開始的,假設 10s 時有人開始說話,要求配上音頻流,
那麼音頻流的起始時間應該是 10s,若是時間戳從 0s 或其它時間開始打,則這個混合的音視頻流在時間同步上自己就出了問題。
打時間戳時,視頻流和音頻流都是參考參考時鐘的時間,而數據流之間不會發生參考關係;也就是說,視頻流和音頻流是經過一箇中立的第三方(也就是參考時鐘)
來實現同步的。 第二個關鍵的地方, 就是在播放時基於時間戳對數據流的控制,也就是對數據塊早到或晚
到採起不一樣的處理方法。圖 2.8 中,參考時鐘時間在 0-10s 內播放視頻流內容過程當中,即便收到了音頻流數據塊也不能當即播放它,而必須等到參考時鐘的時間達
到 10s 以後才能夠,不然就會引發音視頻不一樣步問題。

基於時間戳的播放過程當中,僅僅對早到的或晚到的數據塊進行等待或快速處理,有時候是不夠的。若是想要更加主動而且有效地調節播放性能,須要 引入一個
反饋機制,也就是要將當前數據流速度太快或太慢的狀態反饋給「源」,讓源去放慢或加快數 據流的速度。

同步是一個動態的過程,是一個有人等待、有人追趕的過程。同步只是暫時的,而不一樣步纔是常態。人們老是在同步的水平線上振盪波動,但不會偏離這條基線太遠。

播放器是指能播放以數字信號形式存儲的音視頻文件的軟件。服務器

音視頻是怎麼播出來的

任何影片的播放都分爲3個步驟： 拆包-> 解碼-> 渲染，分別對應播放器的 分離器(demuxer)-> 解碼器(decoder)-> 渲染器(render) 。網絡

平時咱們所說的格式，如avi 、ts 、mkv 、mp3 、ape 、mov 、wmv 、flv等等，不是視頻音頻編碼格式,而是封裝包的格式。封包只是個容器而已，裏面裝的是壓縮的視頻、壓縮的音頻、字幕等。而傳說中的 xvid，divx，mpeg4等等纔是視頻編碼格式，mp3，aac，flac，ape等等纔是音頻編碼格式。ide

舉個通俗的例子，想象有紅、藍、綠三種綵帶，上面都寫着密密麻麻的文字，分別表明視頻流、音頻流和字幕。下面咱們把三種綵帶都剪成一段一段的，而後用膠水按紅藍綠的順序（其餘順序也行）從新鏈接起來（是否是很好看？），就OK了。所謂的封裝包的格式就是這些紅綵帶、藍綵帶、綠綵帶的段長啊，鏈接順序啊等，有些mkv格式的文件包含多種語言的字幕，就能夠理解爲紅、藍、綠、紫、橙等多種綵帶剪開後從新鏈接到一塊兒。所謂音視頻編碼格式，就是綵帶上的文字所用的語言。性能

拆包： 便是播放器調用分離器,將封包中的視頻軌道和音頻軌道正確的取出來的過程。這樣想，所謂拆包就是把鏈接好的綵帶在膠水粘連的位置剪開的過程。剪開以後，不一樣顏色的綵帶被分發到不一樣的解碼器那兒。
解碼： 當分離器正確的從封包中取出視頻軌道和音頻軌道之後,播放器識別文件編碼格式,而後調用相應的解碼器進行解碼。這個過程就像，綵帶上的內容多是用英語、法語、德語寫的，你看不懂，怎麼辦？那就找一個懂這門外語的給你翻譯成漢語。這個翻譯過程就是解碼。
渲染： 解碼器將音頻視頻翻譯完畢,由渲染器輸出的過程。能夠理解爲畫面出來了，顯示在屏幕上，聲音處理好了，從喇叭出來的過程。這個過程頗有意思，咱們能夠做不少干涉，以取得某些特殊的效果。

什麼是多媒體容器

舉個例子，我們日常所見的那種 .mkv .avi視頻文件都是多媒體容器文件格式。所謂容器格式就是將不一樣的多媒體數據流(多條音頻流,字幕流和視頻流)聯合起來加到一個文件(載體)裏面.播放的時候分別對各條多媒體數據流進行解碼。多媒體容器 (Multimedia Container)也稱爲多媒體封裝格式，它不一樣於H.26四、DivX、 MP3這類編碼格式，它只是爲多媒體編碼提供了一個「外殼」。ui

多媒體容器文件格式通常都包括 文件頭部分 、 索引部分 和 多媒體數據部分編碼

文件頭部分: :說明了多媒體數據符合的壓縮標準和規範信息。常見的多媒體數據的壓縮標準有：MPEG系列（MPEG運動圖象專家組開發的一系列視頻音頻編碼）和 H.26X系列（ITU國際電信聯盟主導的編碼系列）。除了 ITU 與 ISO 開發的行業標準之外，還出現了幾種專用於因特網流媒體應用、廣受歡迎的專有解決方案，其中包括Real Networks Real Video (RV10)、Microsoft Windows Media Video 9 (WMV9) 系列、ON2 VP6 以及 Nancy等等。多媒體數據符合的規範信息能夠包括視頻的分辨率、幀率，音頻的採樣率等。
索引部分: 因爲多媒體數據一般會被分紅若干塊，各塊數據之間也多是不連續存儲的，所以須要再索引部分創建多媒體數據的存儲位置索引（如圖2所示），其詳細顯示了視頻數據存儲位置索引，用來記錄相應數據塊的存儲位置的偏移量，因爲各數據塊的大小可能不一樣，所以也可能須要在索引部分創建各類多媒體數據塊的尺寸大小索引，用來記錄相應數據塊的尺寸大小。此外在索引部分還創建了其餘索引，好比音視頻同步索引等等。PC上播放這些多媒體容器文件時，通常是將索引一次性的全部放到內存中，而後在播放中根據操做（快進、快退等）來經過數據索引獲得所需的數據。
多媒體數據部分： 就是通過壓縮的多媒體數據，包括視頻數據、音頻數據、文本數據及其餘多媒體數據。

常見的多媒體容器

MPG/MPEG： MPEG編碼採用的容器，具備流的特性。裏面又分爲 PS，TS 等，PS 主要用於 DVD 存儲，TS 主要用於 HDTV、DVB傳輸。
AVI： 最多見的音頻視頻容器。它能夠容納多種類型的視頻編碼和音頻編碼，像VP六、DivX、XviD等視頻編碼和PCM、MP三、AC3等音頻編碼。
VOB： DVD採用的容器格式，支持多視頻多音軌多字幕章節等。另外一種特色更爲鮮明的媒體容器，它可容納MPEG-2視頻流、多個AC三、 DTS、THX、PCM音頻流、多個不一樣語言的圖形字幕流。
MP4： MPEG-4編碼採用的容器，基於 QuickTime MOV 開發，具備許多先進特性。
ASF： Windows Media 採用的容器，可以用於流傳送，還能包容腳本等。 Microsoft公司推出的Advanced Streaming Format (ASF，高級流格式)，也是一個在Internet上實時傳播多媒體的技術標準，Microsoft公司的野心很大，希圖用ASF取代 QuickTime之類的技術標準。ASF的主要優勢包括：本地或網絡回放、可擴充的媒體類型、部件下載、以及擴展性等。ASF應用的主要部件是 NetShow服務器和NetShow播放器。有獨立的編碼器將媒體信息編譯成ASF流，而後發送到NetShow服務器，再由NetShow服務器將 ASF流發送給網絡上的全部NetShow播放器，從而實現單路廣播或多路廣播。這和Real系統的實時轉播則是大同小異。
WMV： 又是一種獨立於編碼方式的在Internet上實時傳播多媒體的技術標準，Microsoft公司但願用其取代QuickTime之類的技術標準以及 WAV、AVI之類的文件擴展名。主要優勢包括：本地或網絡回放、可擴充的媒體類型、部件下載、可伸縮的媒體類型、流的優先級化、多語言支持、環境獨立性、豐富的流間關係以及擴展性等。
MOV/QT： QuickTime 的容器，恐怕也是現今最強大的容器，甚至支持虛擬現實技術，Java 等，它的變種 MP4,3GP都沒有這麼厲害。QuickTime是Apple計算機公司開發的一種音頻、視頻文件格式，用於保存音頻和視頻信息，具備先進的視頻和音頻功能，被包括Apple Mac OS、Microsoft Windows 95/98/NT在內的全部主流電腦平臺支持。QuickTime文件格式支持25位彩色，支持RLE、JPEG等領先的集成壓縮技術，提供150多種視頻效果，並配有提供了200多種MIDI兼容音響和設備的聲音裝置。新版的QuickTime進一步擴展了原有功能，包含了基於Internet應用的關鍵特性，可以經過Internet提供實時的數字化信息流、工做流與文件回放功能，此外，QuickTime還採用了一種稱爲QuickTime VR (簡做QTVR)技術的虛擬現實(Virtual Reality， VR)技術，用戶經過鼠標或鍵盤的交互式控制，能夠觀察某一地點周圍360度的景像，或者從空間任何角度觀察某一物體。QuickTime以其領先的多媒體技術和跨平臺特性、較小的存儲空間要求、技術細節的獨立性以及系統的高度開放性，獲得業界的普遍承認，目前已成爲數字媒體軟件技術領域的事實上的工業標準。國際標準化組織(ISO)最近選擇QuickTime文件格式做爲開發MPEG 4規範的統一數字媒體存儲格式。
MKV： MKV它能把 Windows Media Video，RealVideo，MPEG-4 等視頻音頻融爲一個文件，並且支持多音軌，支持章節字幕等。Matroska媒體定義了三種類型的文件：MKV是視頻文件，它裏面可能還包含有音頻和字幕；MKA是單一的音頻文件，但可能有多條及多種類型的音軌；MKS是字幕文件。這三種文件以MKV最爲常見。最大的特色就是能容納多種不一樣類型編碼的視頻、音頻及字幕流，即便是很是封閉的RealMedia及QuickTime也被它包括進去了，並將它們的音視頻進行了從新組織來達到更好的效果。能夠說是對傳統媒體格式的一次大顛覆!它如今幾乎變成了一個萬能的媒體容器。
WAV： 一種音頻容器，你們常說的 WAV 就是沒有壓縮的 PCM 編碼，其實 WAV 裏面還能夠包括 MP3 等其餘 ACM 壓縮編碼。
3GP： 3GPP視頻採用的格式，主要用於流媒體傳送。3GPP 的視頻採用了 MPEG-4 和 H.263 兩種編碼，可能還將加入 H.264，音頻方面音樂壓縮採用 AAC，語音則採用先進的 AMR，另外一個 aacPlus 隨着 V2 版本的推出，底碼率下的效果更加突出，也有望加入標準。
OGG： Ogg 項目採用的容器，具備流的特性，支持多音軌，章節，字幕等。
OGM： Ogg 容器的變種，可以支持基於 DirectShow 的視頻音頻編碼，支持章節等特性。
NSV： Nullsoft Video 的容器，用於流傳送。

什麼是音視頻編解碼

簡而言之，音視頻的編解碼過程就是音視頻的壓縮和解壓縮過程。加密

編碼： 編碼主要有三個方面的含義:模擬信號的數字化過程，數據壓縮的過程，數據加密的過程。
解碼： 編碼的反過程，對編碼過的數據進行處理，處理成渲染器能夠接收的數據。

LettleBox PanScan的處理

其餘音視頻相關術語

視角比： 一個視頻幀的寬和高的比例。寬//高。
比特率： 就是常說的碼率，媒體每秒鐘播放所需的數據量。常說的VBR表示媒體的比特率不是恆定的，是動態變更的。
採樣率： 音頻每秒鐘採樣的次數。
ES： 原始流，一個單獨的音頻、視頻、數據、字幕流。
PVR： 錄製、時移。
PIP： 畫中畫。
音軌： 媒體中的一個音頻流就叫一個音軌。每條音軌分別定義了該條音軌的屬性，如音色、通道數、音量等。
聲道： 所謂聲道是指聲音在錄製或回放時候在不一樣的空間位置採集或回放的相互獨立的音頻信號，因此聲道數也就是聲音錄製時候的音源數量或回放時候相應的揚聲器的數量。

什麼是PVR

什麼是PVR呢？英文全稱是Personal video recorder。用一句歸納起來說，PVR 其實是不須要錄像帶的VCR（錄像機）。普通的VCR只是將電視機節目錄制到VHS 錄像帶上，而PVR用一塊內置硬盤驅動器代替了錄像帶。在將電視節目錄制到PVR的內置硬盤中，您就能夠播放錄製的節目，能夠快進，想看多少便就看多少遍，等最後看夠了，就從硬盤上刪除。spa

咱們的PVR支持什麼功能

支持 錄製和時移 。時移是指在觀看數字電視節目時，隨時暫停或後退/快進電視節目。翻譯

什麼是PIP