揭祕視頻千倍壓縮背後的技術原理之預測技術

隨着5G的成熟和普遍商用,帶寬已經愈來愈高,傳輸視頻變得更加容易。設備特別是移動設備算力的提高、存儲容量的提高,使得視頻技術的應用愈來愈普遍,不管是流媒體、泛娛樂、實時通訊,視頻都帶給了用戶更加豐富的體驗。git

視頻相關的技術,特別是視頻壓縮,因其專業性,深刻開發的門檻較高。具體到視頻實時通訊場景,視頻壓縮技術面臨更嚴峻的挑戰,由於實時通訊場景下,對時延要求很是高,對設備適配的要求也很是高,對帶寬適應的要求也很是高,開發一款知足實時通訊要求的編解碼器,難度也很高。以前的文章中,咱們已經在《深刻淺出理解視頻編解碼技術》一文中簡要介紹了視頻編解碼基本框架,今天咱們將深刻剖析其中的預測模塊,便於你們更好地理解視頻編解碼技術。github

01算法

顏色空間markdown

開始進入主題以前,先簡單看一下視頻是如何在計算機中進行表達的。視頻是由一系列圖片按照時間順序排列而成,每一張圖片爲一幀。每一幀能夠理解爲一個二維矩陣,矩陣的每一個元素爲一個像素。一個像素一般由三個顏色進行表達,例如用RGB顏色空間表示時,每個像素由三個顏色份量組成。每個顏色份量用1個字節來表達,其取值範圍就是0~255。編碼中經常使用的YUV格式與之相似,這裏不做展開。框架

1.png

圖一
                               
複製代碼

以1280x720@60fps的視頻序列爲例,十秒鐘的視頻有128072036010 = 1.6GB,如此大量的數據,不管是存儲仍是傳輸,都面臨巨大的挑戰。視頻壓縮或者編碼的目的,也是爲了保證視頻質量的前提下,將視頻減少,以利於傳輸和存儲。同時,爲了能正確還原視頻,須要將其解碼。從最先的H.261開始,視頻編解碼的框架都採用了這一結構,如圖所示。主要的模塊分爲幀內/幀間預測、(反)變換、(反)量化、熵編碼、環內濾波。一幀視頻數據,首先被分割成一系列的方塊,按照從左到右從上到下的方式,逐個進行處理,最後獲得碼流。ide

2.png

圖二
複製代碼

02oop

幀內預測性能

視頻數據被劃分紅方塊以後,相鄰的方塊的像素,以及方塊內的像素,顏色每每是逐漸變化的,他們之間有比較強的有類似性。這種類似性,就是空間冗餘。既然存在冗餘,就能夠用更少的數據量來表達這樣的特徵。好比,先傳輸第一個像素的值,再傳輸第二個像素相對於第一個像素的變化值,這個變化值每每取值範圍變小了許多,原來要8個bit來表達的像素值,可能只須要少於8個bit就足夠了。一樣的道理,以像素塊爲基本單位,也能夠進行相似的「差分」操做。咱們從示例圖中,來更加直觀地感覺一下這樣的類似性。優化

3.jpg

圖三
複製代碼

如圖中所標出的兩個8x8的塊,其亮度份量(Y)沿着「左上到右下」的方向,具備連續性,變化不大。假如咱們設計某種特定的「模式」,使其利用左邊的塊來「預測」右邊的塊,那麼「原始像素」減去「預測像素」就能夠減小傳輸所須要的數據量,同時將該「模式」寫入最終的碼流,解碼器即可以利用左側的塊來「重建」右側的塊。極端一點講,假如左側的塊的像素值通過必定的運算能夠徹底和右側的塊相同,那麼編碼器只要用一個「模式」的代價,傳輸右側的塊。固然,視頻中的紋理多種多樣,單一的模式很難對全部的紋理都適用,所以標準中也設計了多種多樣的幀內預測模式,以充分利用像素間的相關性,達到壓縮的目的。例以下圖 (From Vcodex)所示的H.264中9種幀內預測方向。以模式0(豎直預測)爲例,上方塊的每一個像素值(重建)各複製一列,獲得幀內預測值。其它各類模式也採用相似的方法,不過,生成預測值的方式稍有不一樣。有這麼多的模式,就產生了一個問題,對於一個塊而言,咱們應該採用哪一種模式來進行編碼呢?最佳的選擇方式,就是遍歷全部的模式進行嘗試,計算其編碼的所需的比特數和產生的質量損失,即率失真優化,這樣明顯很是複雜,於是也有不少種其它的方式來推斷哪一種模式更好,例如基於SATD或者邊緣檢測等。編碼

從H.264的9種預測模式,到AV1的56種幀內方向預測模式,愈來愈多的模式也是爲了更加精準地預測未編碼的塊,可是模式的增長,一方面增長了傳輸模式的碼率開銷,另外一方面,從如此重多的模式中選一個最優的模式來編碼,使其能達到更高的壓縮比,這對編碼器的設計和實現也提出了更高的要求。

4.jpg

圖四
複製代碼

03

幀間預測

如下5張圖片是一段視頻的前5幀,能夠看出,圖片中只有Mario和磚塊在運動,其他的場景大可能是類似的,這種類似性就稱之爲時間冗餘。編碼的時候,咱們先將第一幀圖片經過前文所述的幀內預測方式進行編碼傳輸,再將後續幀的Mario、磚塊的運動方向進行傳輸,解碼的時候,就能夠將運動信息和第一幀一塊兒來合成後續的幀,這樣就大大減小了傳輸所需的bit數。這種利用時間冗餘來進行壓縮的技術,就是運動補償技術。該技術早在H.261標準中,就已經被採用。

1623226262(1).jpg

圖五
複製代碼

細心地讀者可能已經發現,Mario和磚塊這樣的物體怎麼描述,才能讓它僅憑運動信息就能完整地呈現出來?其實視頻編碼中並不須要知道運動的物體的形狀,而是將整幀圖像劃分紅像素塊,每一個像素塊使用一個運動信息。即基於塊的運動補償。下圖中紅色圈出的白色箭頭即編碼磚塊和Mario時的運動信息,它們都指向了前一幀中所在的位置。Mario和磚塊都有兩個箭頭,說明它們都被劃分在了兩個塊中,每個塊都有單獨的運動信息。這些運動信息就是運動矢量。運動矢量有水平和豎直兩個份量,表明是的一個塊相對於其參考幀的位置變化。參考幀就是已經編碼過的某一(多)個幀。

6.jpg

圖六
複製代碼

固然,傳輸運動矢量自己就要佔用不少 bit,爲了提升運動矢量的傳輸效率,一方面,能夠儘量得將塊劃分變大,共用一個運動矢量,由於平坦區域或者較大的物體,他們的運動多是比較一致的,從 H.264 開始,可變塊大小的運動補償技術被普遍採用;另外一方面,相鄰的塊之間的運動每每也有比較高的類似性,其運動矢量也有較高的類似性,運動矢量自己也能夠根據相鄰的塊運動矢量來進行預測,即運動矢量預測技術;最後,運動矢量在表達物體運動的時候,有精度的取捨。像素是離散化的表達,現實中物體的運動顯然不是以像素爲單位進行運動的,爲了精確地表達物體的運動,須要選擇合適的精度來定義運動矢量。各視頻編解碼標準都定義了運動矢量的精度,運動矢量精度越高,越能精確地表達運動,可是代價就是傳輸運動矢量須要花費更多的bit。H.261中運動矢量是以整像素爲精度的,H.264中運動矢量是以四分之一像素爲精度的,AV1中還增長了八分之一精度。通常狀況,時間上越近的幀,它們之間的類似性越高,也有例外,例如往復運動的場景等,可能相隔幾幀,甚至更遠的幀,會有更高的類似度。爲了充分利用已經編碼過的幀來提升運動補償的準確度,從H.264開始引入了多參考幀技術,即,一個塊能夠從已經編碼過的不少個參考幀中進行運動匹配,將匹配的幀索引和運動矢量信息都進行傳輸。

那麼如何獲得一個塊的運動信息呢?最樸素的想法就是,將一個塊,在其參考幀中,逐個位置進行匹配檢查,匹配度最高的,就是最終的運動矢量。匹配度,經常使用的有SAD(Sum of Absolute Difference)、SSD(Sum of Squared Difference)等。逐個位置進行匹配度檢查,即常說的全搜索運動估計,其計算複雜度可想而知是很是高的。爲了加快運動估計,咱們能夠減小搜索的位置數,相似的有不少算法,經常使用的如鑽石搜索、六邊形搜索、非對稱十字型多層次六邊形格點搜索算法等。以鑽石搜索爲例,如圖所示,以起始的藍色點爲中心的9個匹配位置,分別計算這9個位置的SAD,若是SAD最小的是中心位置,下一步搜索中心點更近的周圍4個綠色點的SAD,選擇其中SAD最小的位置,繼續縮小範圍進行搜索;若是第一步中SAD最小的點不在中心,那麼以該位置爲中心,增長褐色的5或者3個點,繼續計算SAD,如此迭代,直到找到最佳匹配位置。

8.png

圖七
                                    
複製代碼

編碼器在實現時,可根據實際的應用場景,對搜索算法進行選擇。例如,在實時通訊場景下,計算複雜度是相對有限的,運動估計模塊要選擇計算量較小的算法,以平衡複雜度和編碼效率。固然,運動估計與運動補償的複雜度還與塊的大小,參考幀的個數,亞像素的計算等有關,在此再也不深刻展開。

04

總結

本文介紹的預測技術,充分利用了視頻信號空間上和時間上的相關性,經過多種設計精巧的預測模式,達到了去除冗餘的目的,這是視頻壓縮高達千倍比例的關鍵之一。縱觀視頻編解碼技術的發展歷史,預測模式愈來愈多,預測的精確度愈來愈高,帶來的壓縮比也愈來愈高。如何快速高效地使用這些預測模式,也必然成爲設計實現的重中之重,成爲H.265/H.266/AV1這些新標準發揮其高效壓縮性能的關鍵。關注拍樂雲Pano,咱們將在後面的文章中爲你們分享《視頻編解碼系列》的更多技術乾貨。

圖片出處:

圖一:

github.com/leandromore…

圖四:

H.264/AVC Intra Prediction

相關文章
相關標籤/搜索