揭祕視頻千倍壓縮背後的技術原理之預測技術

隨着5G的成熟和普遍商用，帶寬已經愈來愈高，傳輸視頻變得更加容易。設備特別是移動設備算力的提高、存儲容量的提高，使得視頻技術的應用愈來愈普遍，不管是流媒體、泛娛樂、實時通訊，視頻都帶給了用戶更加豐富的體驗。git

視頻相關的技術，特別是視頻壓縮，因其專業性，深刻開發的門檻較高。具體到視頻實時通訊場景，視頻壓縮技術面臨更嚴峻的挑戰，由於實時通訊場景下，對時延要求很是高，對設備適配的要求也很是高，對帶寬適應的要求也很是高，開發一款知足實時通訊要求的編解碼器，難度也很高。以前的文章中，咱們已經在《深刻淺出理解視頻編解碼技術》一文中簡要介紹了視頻編解碼基本框架，今天咱們將深刻剖析其中的預測模塊，便於你們更好地理解視頻編解碼技術。github

01算法

顏色空間markdown

開始進入主題以前，先簡單看一下視頻是如何在計算機中進行表達的。視頻是由一系列圖片按照時間順序排列而成，每一張圖片爲一幀。每一幀能夠理解爲一個二維矩陣，矩陣的每一個元素爲一個像素。一個像素一般由三個顏色進行表達，例如用RGB顏色空間表示時，每個像素由三個顏色份量組成。每個顏色份量用1個字節來表達，其取值範圍就是0~255。編碼中經常使用的YUV格式與之相似，這裏不做展開。框架

圖一
                               
複製代碼

以1280x720@60fps的視頻序列爲例，十秒鐘的視頻有128072036010 = 1.6GB，如此大量的數據，不管是存儲仍是傳輸，都面臨巨大的挑戰。視頻壓縮或者編碼的目的，也是爲了保證視頻質量的前提下，將視頻減少，以利於傳輸和存儲。同時，爲了能正確還原視頻，須要將其解碼。從最先的H.261開始，視頻編解碼的框架都採用了這一結構，如圖所示。主要的模塊分爲幀內/幀間預測、（反）變換、（反）量化、熵編碼、環內濾波。一幀視頻數據，首先被分割成一系列的方塊，按照從左到右從上到下的方式，逐個進行處理，最後獲得碼流。ide

圖二
複製代碼

02oop

幀內預測性能

視頻數據被劃分紅方塊以後，相鄰的方塊的像素，以及方塊內的像素，顏色每每是逐漸變化的，他們之間有比較強的有類似性。這種類似性，就是空間冗餘。既然存在冗餘，就能夠用更少的數據量來表達這樣的特徵。好比，先傳輸第一個像素的值，再傳輸第二個像素相對於第一個像素的變化值，這個變化值每每取值範圍變小了許多，原來要8個bit來表達的像素值，可能只須要少於8個bit就足夠了。一樣的道理，以像素塊爲基本單位，也能夠進行相似的「差分」操做。咱們從示例圖中，來更加直觀地感覺一下這樣的類似性。優化

圖三
複製代碼

如圖中所標出的兩個8x8的塊，其亮度份量（Y）沿着「左上到右下」的方向，具備連續性，變化不大。假如咱們設計某種特定的「模式」，使其利用左邊的塊來「預測」右邊的塊，那麼「原始像素」減去「預測像素」就能夠減小傳輸所須要的數據量，同時將該「模式」寫入最終的碼流，解碼器即可以利用左側的塊來「重建」右側的塊。極端一點講，假如左側的塊的像素值通過必定的運算能夠徹底和右側的塊相同，那麼編碼器只要用一個「模式」的代價，傳輸右側的塊。固然，視頻中的紋理多種多樣，單一的模式很難對全部的紋理都適用，所以標準中也設計了多種多樣的幀內預測模式，以充分利用像素間的相關性，達到壓縮的目的。例以下圖 (From Vcodex)所示的H.264中9種幀內預測方向。以模式0（豎直預測）爲例，上方塊的每一個像素值（重建）各複製一列，獲得幀內預測值。其它各類模式也採用相似的方法，不過，生成預測值的方式稍有不一樣。有這麼多的模式，就產生了一個問題，對於一個塊而言，咱們應該採用哪一種模式來進行編碼呢？最佳的選擇方式，就是遍歷全部的模式進行嘗試，計算其編碼的所需的比特數和產生的質量損失，即率失真優化，這樣明顯很是複雜，於是也有不少種其它的方式來推斷哪一種模式更好，例如基於SATD或者邊緣檢測等。編碼

從H.264的9種預測模式，到AV1的56種幀內方向預測模式，愈來愈多的模式也是爲了更加精準地預測未編碼的塊，可是模式的增長，一方面增長了傳輸模式的碼率開銷，另外一方面，從如此重多的模式中選一個最優的模式來編碼，使其能達到更高的壓縮比，這對編碼器的設計和實現也提出了更高的要求。

圖四
複製代碼

幀間預測

如下5張圖片是一段視頻的前5幀，能夠看出，圖片中只有Mario和磚塊在運動，其他的場景大可能是類似的，這種類似性就稱之爲時間冗餘。編碼的時候，咱們先將第一幀圖片經過前文所述的幀內預測方式進行編碼傳輸，再將後續幀的Mario、磚塊的運動方向進行傳輸，解碼的時候，就能夠將運動信息和第一幀一塊兒來合成後續的幀，這樣就大大減小了傳輸所需的bit數。這種利用時間冗餘來進行壓縮的技術，就是運動補償技術。該技術早在H.261標準中，就已經被採用。

圖五
複製代碼

細心地讀者可能已經發現，Mario和磚塊這樣的物體怎麼描述，才能讓它僅憑運動信息就能完整地呈現出來？其實視頻編碼中並不須要知道運動的物體的形狀，而是將整幀圖像劃分紅像素塊，每一個像素塊使用一個運動信息。即基於塊的運動補償。下圖中紅色圈出的白色箭頭即編碼磚塊和Mario時的運動信息，它們都指向了前一幀中所在的位置。Mario和磚塊都有兩個箭頭，說明它們都被劃分在了兩個塊中，每個塊都有單獨的運動信息。這些運動信息就是運動矢量。運動矢量有水平和豎直兩個份量，表明是的一個塊相對於其參考幀的位置變化。參考幀就是已經編碼過的某一（多）個幀。

圖六
複製代碼

固然，傳輸運動矢量自己就要佔用不少 bit，爲了提升運動矢量的傳輸效率，一方面，能夠儘量得將塊劃分變大，共用一個運動矢量，由於平坦區域或者較大的物體，他們的運動多是比較一致的，從 H.264 開始，可變塊大小的運動補償技術被普遍採用；另外一方面，相鄰的塊之間的運動每每也有比較高的類似性，其運動矢量也有較高的類似性，運動矢量自己也能夠根據相鄰的塊運動矢量來進行預測，即運動矢量預測技術；最後，運動矢量在表達物體運動的時候，有精度的取捨。像素是離散化的表達，現實中物體的運動顯然不是以像素爲單位進行運動的，爲了精確地表達物體的運動，須要選擇合適的精度來定義運動矢量。各視頻編解碼標準都定義了運動矢量的精度，運動矢量精度越高，越能精確地表達運動，可是代價就是傳輸運動矢量須要花費更多的bit。H.261中運動矢量是以整像素爲精度的，H.264中運動矢量是以四分之一像素爲精度的，AV1中還增長了八分之一精度。通常狀況，時間上越近的幀，它們之間的類似性越高，也有例外，例如往復運動的場景等，可能相隔幾幀，甚至更遠的幀，會有更高的類似度。爲了充分利用已經編碼過的幀來提升運動補償的準確度，從H.264開始引入了多參考幀技術，即，一個塊能夠從已經編碼過的不少個參考幀中進行運動匹配，將匹配的幀索引和運動矢量信息都進行傳輸。

那麼如何獲得一個塊的運動信息呢？最樸素的想法就是，將一個塊，在其參考幀中，逐個位置進行匹配檢查，匹配度最高的，就是最終的運動矢量。匹配度，經常使用的有SAD（Sum of Absolute Difference）、SSD（Sum of Squared Difference）等。逐個位置進行匹配度檢查，即常說的全搜索運動估計，其計算複雜度可想而知是很是高的。爲了加快運動估計，咱們能夠減小搜索的位置數，相似的有不少算法，經常使用的如鑽石搜索、六邊形搜索、非對稱十字型多層次六邊形格點搜索算法等。以鑽石搜索爲例，如圖所示，以起始的藍色點爲中心的9個匹配位置，分別計算這9個位置的SAD，若是SAD最小的是中心位置，下一步搜索中心點更近的周圍4個綠色點的SAD，選擇其中SAD最小的位置，繼續縮小範圍進行搜索；若是第一步中SAD最小的點不在中心，那麼以該位置爲中心，增長褐色的5或者3個點，繼續計算SAD，如此迭代，直到找到最佳匹配位置。

圖七
                                    
複製代碼

編碼器在實現時，可根據實際的應用場景，對搜索算法進行選擇。例如，在實時通訊場景下，計算複雜度是相對有限的，運動估計模塊要選擇計算量較小的算法，以平衡複雜度和編碼效率。固然，運動估計與運動補償的複雜度還與塊的大小，參考幀的個數，亞像素的計算等有關，在此再也不深刻展開。

總結

本文介紹的預測技術，充分利用了視頻信號空間上和時間上的相關性，經過多種設計精巧的預測模式，達到了去除冗餘的目的，這是視頻壓縮高達千倍比例的關鍵之一。縱觀視頻編解碼技術的發展歷史，預測模式愈來愈多，預測的精確度愈來愈高，帶來的壓縮比也愈來愈高。如何快速高效地使用這些預測模式，也必然成爲設計實現的重中之重，成爲H.265/H.266/AV1這些新標準發揮其高效壓縮性能的關鍵。關注拍樂雲Pano，咱們將在後面的文章中爲你們分享《視頻編解碼系列》的更多技術乾貨。

圖片出處：

圖一：

github.com/leandromore…

圖四：

H.264/AVC Intra Prediction