本文引用了「拍樂雲Pano」的「深刻淺出理解視頻編解碼技術」和「揭祕視頻千倍壓縮背後的技術原理之預測技術」文章部份內容，感謝原做者的分享。html

一、引言

從 20 世紀 90 年代以來，數字音視頻編解碼技術迅速發展，一直是國內外研究的熱點領域。隨着5G的成熟和普遍商用，帶寬已經愈來愈高，傳輸音視頻變得更加容易。視頻直播、視頻聊天，已經徹底融入了每一個人的生活。算法

視頻爲什麼如此普及呢？是由於經過視頻能方便快捷地獲取到大量信息。但視頻數據量很是巨大，視頻的網絡傳輸也面臨着巨大的挑戰。因而視頻編解碼技術就出場了。windows

具體到實時視頻場景，不只僅是數據量的問題，實時通訊對時延要求、設備適配、帶寬適應的要求也很是高，要解決這些問題，始終離不開視頻編解碼技術的範疇。markdown

本文將從視頻編解碼技術的基礎知識入手，引出視頻編解碼技術中很是基礎且重要的預測技術，學習幀內預測和幀間預測的技術原理。網絡

二、相關文章

若是你是音視頻技術初學者，如下3篇入門級乾貨很是推薦一讀：框架

《零基礎，史上最通俗視頻編碼技術入門》oop

《零基礎入門：實時音視頻技術基礎知識全面盤點》性能

《實時音視頻面視必備：快速掌握11個視頻技術相關的基礎概念》學習

三、爲何須要視頻編解碼

首先，來複習一下視頻編解碼方面的理論常識。優化

視頻是由一系列圖片按照時間順序排列而成：

1）每一張圖片爲一幀；
2）每一幀能夠理解爲一個二維矩陣；
3）矩陣的每一個元素爲一個像素。

一個像素一般由三個顏色進行表達，例如用RGB顏色空間表示時，每個像素由三個顏色份量組成。每個顏色份量用1個字節來表達，其取值範圍就是0~255。編碼中經常使用的YUV格式與之相似，這裏不做展開。

以1280x720@60fps的視頻序列爲例，十秒鐘的視頻有：1280*720*3*60*10 = 1.6GB。

如此大量的數據，不管是存儲仍是傳輸，都面臨巨大的挑戰。視頻壓縮或者編碼的目的，也是爲了保證視頻質量的前提下，將視頻減少，以利於傳輸和存儲。同時，爲了能正確還原視頻，須要將其解碼。

**PS：**限於篇幅，視頻編解碼方面的技術原理就不在此展開，有興趣強烈推薦從這篇深刻學習：《即時通信音視頻開發（十九）：零基礎，史上最通俗視頻編碼技術入門》。

總之，視頻編解碼技術的主要做用就是：在可用的計算資源內，追求儘量高的視頻重建質量和儘量高的壓縮比，以達到帶寬和存儲容量的要求。

爲什麼突出「重建質量」？

由於視頻編碼是個有損的過程，用戶只能從收到的視頻流中解析出「重建」畫面，它與原始的畫面已經不一樣，例如觀看低質量視頻時常常會碰到的「塊」效應。

如何在必定的帶寬佔用下，儘量地保持視頻的質量，或者在保持質量狀況下，儘量地減小帶寬利用率，是視頻編碼的基本目標。

用專業術語來講，即視頻編解碼標準的「率失真」性能：

1）「率」是指碼率或者帶寬佔用；
2）「失真」是用來描述重建視頻的質量。

與編碼相對應的是解碼或者解壓縮過程，是將接收到的或者已經存儲在介質上的壓縮碼流重建成視頻信號，而後在各類設備上進行顯示。

四、什麼是視頻編解碼標準

視頻編解碼標準，一般只定義上述的解碼過程。

例如 H.264 / AVC 標準，它定義了什麼是符合標準的視頻流，對每個比特的順序和意義都進行了嚴格地定義，對如何使用每一個比特或者幾個比特表達的信息也有精確的定義。

正是這樣的嚴格和精確，保證了不一樣廠商的視頻相關服務，能夠很方便地兼容在一塊兒，例如用 iPhone、Android Phone 或者 windows PC 均可以觀看同一在線視頻網站的同一視頻。

世界上有多個組織進行視頻編碼標準的制定工做，國際標準組織 ISO 的 MPEG 小組、國際電信聯盟 ITU-T 的 VCEG 小組、中國的 AVS 工做組、Google 及各大廠商組成的開放媒體聯盟等。

視頻編碼標準及發展歷史：

自 VCEG 制定 H.120標準開始，視頻編碼技術不斷髮展，前後成功地制定了一系列知足不一樣應用場景的視頻編碼標準。VCEG 組織前後制定了H.120、H.26一、H.262(MPEG-2 Part 2)、H.26三、H.263+、H.263++。

MPEG也前後制定了MPEG-一、MPEG-二、MPEG-4 Part 2。以及兩個國際組織合做制定的H.264/AVC、H.265/HEVC、H.266/VVC。

中國自主知識產權的 AVS、AVS二、AVS3 視頻編碼標準；Google 制定的 VP八、VP9。

Google、思科、微軟、蘋果等公司組成的開放媒體聯盟（AOM）制定的 AV1。

**這裏特別提一下H.264/AVC：**H.264/AVC雖有近20年曆史，但它優秀的壓縮性能、適當的運算複雜度、優秀的開源社區支持、友好的專利政策、強大的生態圈等多個方面的因素，依舊讓它保持着強大的生命力，特別是在實時通訊領域。像 ZOOM、思科 Webex 等視頻會議產品和基於 WebRTC SDK 的視頻服務，大多數主流場景都採用 H.264/AVC。

有關視頻編解碼標準，這裏就不深刻展開。更多詳細資料，能夠讀一下下面這些精選文章：

《即時通信音視頻開發（五）：認識主流視頻編碼技術H.264》

《即時通信音視頻開發（十三）：實時視頻編碼H.264的特色與優點》

《即時通信音視頻開發（十七）：視頻編碼H.26四、VP8的前世此生》

《愛奇藝技術分享：輕鬆詼諧，講解視頻編解碼技術的過去、如今和未來》

五、混和編碼框架

縱觀視頻編解碼標準歷史，每一代視頻標準都在率失真性能上有着顯著的提高，他們都有一個核心的框架，就是基於塊的混合編碼框架（以下圖所示）。它是由J. R. Jain 和A. K. Jain在1979年的國際圖像編碼學會(PCS 1979)上提出了基於塊運動補償和變換編碼的混合編碼框架。

咱們一塊兒來對該框架進行拆解和分析。

**從攝像頭採集到的一幀視頻：**一般是 YUV 格式的原始數據，咱們將它劃分紅多個方形的像素塊依次進行處理（例如 H.264/AVC 中以16x16像素爲基本單元），進行幀內/幀間預測、正變換、量化、反量化、反變換、環路濾波、熵編碼，最後獲得視頻碼流。從視頻第一幀的第一個塊開始進行空間預測，因當前正在進行編碼處理的圖像塊和其周圍的圖像塊有類似性，咱們能夠用周圍的像素來預測當前的像素。咱們將原始像素減去預測像素獲得預測殘差，再將預測殘差進行變換、量化，獲得變換系數，而後將其進行熵編碼後獲得視頻碼流。

**接下來：**爲了可使後續的圖像塊可使用已經編碼過的塊進行預測，咱們還要對變換系統進行反量化、反變換，獲得重建殘差，再與預測值進行求合，獲得重建圖像。最後咱們對重建圖像進行環路濾波、去除塊效應等，這樣獲得的重建圖像，就能夠用來對後續圖像塊進行預測了。按照以上步驟，咱們依次對後續圖像塊進行處理。

**對於視頻而言：**視頻幀與幀的間隔大約只有十到幾十毫秒，一般拍攝的內容不會發生劇烈變化，它們之間存在很是強的相關性。

以下圖所示，將視頻圖像分割成塊，在時間相鄰的圖像之間進行匹配，而後將匹配以後的殘差部分進行編碼，這樣能夠較好地去除視頻信號中的視頻幀與幀之間的冗餘，達到視頻壓縮的目的。這就是運動補償技術，直到今天它仍然是視頻編解碼的核心技術之一。

運動估計和運動補償：

**變換編碼的核心思想：**是把視頻數據分割成塊，利用正交變換將數據的能量集中到較少幾個變換系數上。結合量化和熵編碼，咱們能夠得到更有效的壓縮。視頻編碼中信息的損失和壓縮比的得到，很大程度上來源於量化模塊，就是將源信號中的單同樣本映射到某一固定值，造成多到少的映射，從而達到壓縮的目的，固然在壓縮的過程當中就引入了損失。量化後的信號再進行無損的熵編碼，消除信號中的統計冗餘。熵編碼的研究最先能夠追溯到 20 世紀 50 年代，通過幾十年的發展，熵編碼在視頻編碼中的應用更加成熟、更加精巧，充分利用視頻數據中的上下文信息，將機率模型估計得更加準確，從而提升了熵編碼的效率。例如H.264/AVC中的Cavlc（基於上下文的變長編碼）、Cabac（基於上下文的二進制算術編碼）。算術編碼技術在後續的視頻編碼標準，如AV一、HEVC/H.26五、VVC/H.266 中也有應用。

視頻編碼發展至今，VVC/H.266 做爲最新制定的標準，採納了一系列先進的技術，對混合編碼框架的各個部分都進行了優化和改進，使得其率失真性能相比前一代標準，又提升了一倍。

**例如：**VVC/H.266 採用了128x128大小的基本編碼單元，而且能夠繼續進行四叉樹劃分，支持對一個劃分進行二分、三分；色度份量獨立於亮度份量，支持單獨進行劃分；更多更精細的幀內預測方向、幀間預測模式；支持多種尺寸和形式的變換、環內濾波等。

VVC/H.266 的制定，目標是對多種視頻內容有更好支持，例如屏幕共享內容、遊戲、動漫、虛擬現實內容（VR、AR）等。其中也有特定的技術被採納進標準，例如調色板模式、幀內運動補償、仿射變換、跳過變換、自適應顏色變換等。

回到本文的正題，接下來的內容，咱們着重介紹視頻編解碼中的預測技術。

六、幀內預測技術

視頻數據被劃分紅方塊以後，相鄰的方塊的像素，以及方塊內的像素，顏色每每是逐漸變化的，他們之間有比較強的有類似性。這種類似性，就是空間冗餘。既然存在冗餘，就能夠用更少的數據量來表達這樣的特徵。

**好比：**先傳輸第一個像素的值，再傳輸第二個像素相對於第一個像素的變化值，這個變化值每每取值範圍變小了許多，原來要8個bit來表達的像素值，可能只須要少於8個bit就足夠了。

一樣的道理，以像素塊爲基本單位，也能夠進行相似的「差分」操做。咱們從示例圖中，來更加直觀地感覺一下這樣的類似性。

**如上圖中所標出的兩個8x8的塊：**其亮度份量（Y）沿着「左上到右下」的方向，具備連續性，變化不大。

**假如：**咱們設計某種特定的「模式」，使其利用左邊的塊來「預測」右邊的塊，那麼「原始像素」減去「預測像素」就能夠減小傳輸所須要的數據量，同時將該「模式」寫入最終的碼流，解碼器即可以利用左側的塊來「重建」右側的塊。

**極端一點講：**假如左側的塊的像素值通過必定的運算能夠徹底和右側的塊相同，那麼編碼器只要用一個「模式」的代價，傳輸右側的塊。

固然，視頻中的紋理多種多樣，單一的模式很難對全部的紋理都適用，所以標準中也設計了多種多樣的幀內預測模式，以充分利用像素間的相關性，達到壓縮的目的。

**例以下圖所示的H.264中9種幀內預測方向：**以模式0（豎直預測）爲例，上方塊的每一個像素值（重建）各複製一列，獲得幀內預測值。其它各類模式也採用相似的方法，不過，生成預測值的方式稍有不一樣。有這麼多的模式，就產生了一個問題，對於一個塊而言，咱們應該採用哪一種模式來進行編碼呢？最佳的選擇方式，就是遍歷全部的模式進行嘗試，計算其編碼的所需的比特數和產生的質量損失，即率失真優化，這樣明顯很是複雜，於是也有不少種其它的方式來推斷哪一種模式更好，例如基於SATD或者邊緣檢測等。

從H.264的9種預測模式，到AV1的56種幀內方向預測模式，愈來愈多的模式也是爲了更加精準地預測未編碼的塊，可是模式的增長，一方面增長了傳輸模式的碼率開銷，另外一方面，從如此重多的模式中選一個最優的模式來編碼，使其能達到更高的壓縮比，這對編碼器的設計和實現也提出了更高的要求。

七、幀間預測技術

**如下5張圖片是一段視頻的前5幀：**能夠看出，圖片中只有Mario和磚塊在運動，其他的場景大可能是類似的，這種類似性就稱之爲時間冗餘。編碼的時候，咱們先將第一幀圖片經過前文所述的幀內預測方式進行編碼傳輸，再將後續幀的Mario、磚塊的運動方向進行傳輸，解碼的時候，就能夠將運動信息和第一幀一塊兒來合成後續的幀，這樣就大大減小了傳輸所需的bit數。這種利用時間冗餘來進行壓縮的技術，就是運動補償技術。該技術早在H.261標準中，就已經被採用。

**細心地讀者可能已經發現：**Mario和磚塊這樣的物體怎麼描述，才能讓它僅憑運動信息就能完整地呈現出來？

其實視頻編碼中並不須要知道運動的物體的形狀，而是將整幀圖像劃分紅像素塊，每一個像素塊使用一個運動信息。即基於塊的運動補償。

下圖中紅色圈出的白色箭頭即編碼磚塊和Mario時的運動信息，它們都指向了前一幀中所在的位置。Mario和磚塊都有兩個箭頭，說明它們都被劃分在了兩個塊中，每個塊都有單獨的運動信息。這些運動信息就是運動矢量。運動矢量有水平和豎直兩個份量，表明是的一個塊相對於其參考幀的位置變化。參考幀就是已經編碼過的某一（多）個幀。

**固然：**傳輸運動矢量自己就要佔用不少 bit。爲了提升運動矢量的傳輸效率，主要有如下措施。

**一方面：**能夠儘量得將塊劃分變大，共用一個運動矢量，由於平坦區域或者較大的物體，他們的運動多是比較一致的。從 H.264 開始，可變塊大小的運動補償技術被普遍採用。

**另外一方面：**相鄰的塊之間的運動每每也有比較高的類似性，其運動矢量也有較高的類似性，運動矢量自己也能夠根據相鄰的塊運動矢量來進行預測，即運動矢量預測技術；

**最後：**運動矢量在表達物體運動的時候，有精度的取捨。像素是離散化的表達，現實中物體的運動顯然不是以像素爲單位進行運動的，爲了精確地表達物體的運動，須要選擇合適的精度來定義運動矢量。各視頻編解碼標準都定義了運動矢量的精度，運動矢量精度越高，越能精確地表達運動，可是代價就是傳輸運動矢量須要花費更多的bit。

H.261中運動矢量是以整像素爲精度的，H.264中運動矢量是以四分之一像素爲精度的，AV1中還增長了八分之一精度。通常狀況，時間上越近的幀，它們之間的類似性越高，也有例外，例如往復運動的場景等，可能相隔幾幀，甚至更遠的幀，會有更高的類似度。

爲了充分利用已經編碼過的幀來提升運動補償的準確度，從H.264開始引入了多參考幀技術。

**即：**一個塊能夠從已經編碼過的不少個參考幀中進行運動匹配，將匹配的幀索引和運動矢量信息都進行傳輸。

那麼如何獲得一個塊的運動信息呢？最樸素的想法就是，將一個塊，在其參考幀中，逐個位置進行匹配檢查，匹配度最高的，就是最終的運動矢量。

匹配度：經常使用的有SAD（Sum of Absolute Difference）、SSD（Sum of Squared Difference）等。逐個位置進行匹配度檢查，即常說的全搜索運動估計，其計算複雜度可想而知是很是高的。爲了加快運動估計，咱們能夠減小搜索的位置數，相似的有不少算法，經常使用的如鑽石搜索、六邊形搜索、非對稱十字型多層次六邊形格點搜索算法等。

以鑽石搜索爲例，以下圖所示，以起始的藍色點爲中心的9個匹配位置，分別計算這9個位置的SAD，若是SAD最小的是中心位置，下一步搜索中心點更近的周圍4個綠色點的SAD，選擇其中SAD最小的位置，繼續縮小範圍進行搜索；若是第一步中SAD最小的點不在中心，那麼以該位置爲中心，增長褐色的5或者3個點，繼續計算SAD，如此迭代，直到找到最佳匹配位置。

編碼器在實現時，可根據實際的應用場景，對搜索算法進行選擇。

**例如：**在實時音視頻場景下，計算複雜度是相對有限的，運動估計模塊要選擇計算量較小的算法，以平衡複雜度和編碼效率。固然，運動估計與運動補償的複雜度還與塊的大小，參考幀的個數，亞像素的計算等有關，在此再也不深刻展開。

更多預測技術方面的原理這裏就再也不贅述。若是你對上面所述的預測技術理解上感到力不從心，這裏有篇入門級的文章，能夠先讀讀這篇《即時通信音視頻開發（四）：視頻編解碼之預測技術介紹》。

八、寫在最後

音視頻編解碼技術，歸根結底就是在有限的資源下（網絡帶寬、計算資源等），讓音質更清晰、視頻更高質。

這其中，對於視頻來講，質量的提高仍然有不少能夠深刻研究的熱點問題。

**好比：**基於人眼的主觀質量優化，主要利用人眼的視覺特性，將掩蔽效應、對比度靈敏度、注意力模型等與編碼相結合，合理分配碼率、減小編碼損失引發的視覺不適。

AI在視頻編解碼領域的應用：包括將多種人工智能算法，如分類器、支持向量機、CNN等對編碼參數進行快速選擇，也可使用深度學習對視頻進行編碼環外與編碼環內的處理，如視頻超分辨率、去噪、去霧、自適應動態範圍調整等編碼環外處理，達到提高視頻質量的目的。

此外還有打破傳統混合編碼框架的深度神經網絡編碼，如Nvidia的Maxine視頻會議服務，利用深度學習來提取特徵，而後對特徵進行傳輸以節省帶寬。（本文同步發佈於：www.52im.net/thread-3581…）

實時音視頻開發理論必備：如何省流量？視頻高度壓縮背後的預測技術