理解音視頻 PTS 和 DTS

視頻

視頻的播放過程能夠簡單理解爲一幀一幀的畫面按照時間順序呈現出來的過程,就像在一個本子的每一頁畫上畫,而後快速翻動的感受。html

image

可是在實際應用中,並非每一幀都是完整的畫面,由於若是每一幀畫面都是完整的圖片,那麼一個視頻的體積就會很大,這樣對於網絡傳輸或者視頻數據存儲來講成本過高,因此一般會對視頻流中的一部分畫面進行壓縮(編碼)處理。因爲壓縮處理的方式不一樣,視頻中的畫面幀就分爲了避免同的類別,其中包括:I 幀、P 幀、B 幀。網絡

I、P、B 幀

I 幀、P 幀、B 幀的區別在於:ide

  • I 幀(Intra coded frames):I 幀圖像採用幀內編碼方式,即只利用了單幀圖像內的空間相關性,而沒有利用時間相關性。I 幀使用幀內壓縮,不使用運動補償,因爲 I 幀不依賴其它幀,因此是隨機存取的入點,同時是解碼的基準幀。I 幀主要用於接收機的初始化和信道的獲取,以及節目的切換和插入,I 幀圖像的壓縮倍數相對較低。I 幀圖像是週期性出如今圖像序列中的,出現頻率可由編碼器選擇。
  • P 幀(Predicted frames):P 幀和 B 幀圖像採用幀間編碼方式,即同時利用了空間和時間上的相關性。P 幀圖像只採用前向時間預測,能夠提升壓縮效率和圖像質量。P 幀圖像中能夠包含幀內編碼的部分,即 P 幀中的每個宏塊能夠是前向預測,也能夠是幀內編碼。
  • B 幀(Bi-directional predicted frames):B 幀圖像採用雙向時間預測,能夠大大提升壓縮倍數。值得注意的是,因爲 B 幀圖像採用了將來幀做爲參考,所以 MPEG-2 編碼碼流中圖像幀的傳輸順序和顯示順序是不一樣的。

也就是說,一個 I 幀能夠不依賴其餘幀就解碼出一幅完整的圖像,而 P 幀、B 幀不行。P 幀須要依賴視頻流中排在它前面的幀才能解碼出圖像。B 幀則須要依賴視頻流中排在它前面或後面的幀才能解碼出圖像。編碼

這就帶來一個問題:在視頻流中,先到來的 B 幀沒法當即解碼,須要等待它依賴的後面的 I、P 幀先解碼完成,這樣一來播放時間與解碼時間不一致了,順序打亂了,那這些幀該如何播放呢?這時就須要咱們來了解另外兩個概念:DTS 和 PTS。.net

DTS、PTS 的概念

DTS、PTS 的概念以下所述:code

  • DTS(Decoding Time Stamp):即解碼時間戳,這個時間戳的意義在於告訴播放器該在何時解碼這一幀的數據。
  • PTS(Presentation Time Stamp):即顯示時間戳,這個時間戳用來告訴播放器該在何時顯示這一幀的數據。

須要注意的是:雖然 DTS、PTS 是用於指導播放端的行爲,但它們是在編碼的時候由編碼器生成的。視頻

當視頻流中沒有 B 幀時,一般 DTS 和 PTS 的順序是一致的。但若是有 B 幀時,就回到了咱們前面說的問題:解碼順序和播放順序不一致了。htm

好比一個視頻中,幀的顯示順序是:I B B P,如今咱們須要在解碼 B 幀時知道 P 幀中信息,所以這幾幀在視頻流中的順序多是:I P B B,這時候就體現出每幀都有 DTS 和 PTS 的做用了。DTS 告訴咱們該按什麼順序解碼這幾幀圖像,PTS 告訴咱們該按什麼順序顯示這幾幀圖像。順序大概以下:blog

PTS: 1 4 2 3
   DTS: 1 2 3 4
Stream: I P B B

音視頻的同步

上面說了視頻幀、DTS、PTS 相關的概念。咱們都知道在一個媒體流中,除了視頻之外,一般還包括音頻。音頻的播放,也有 DTS、PTS 的概念,可是音頻沒有相似視頻中 B 幀,不須要雙向預測,因此音頻幀的 DTS、PTS 順序是一致的。圖片

音頻視頻混合在一塊兒播放,就呈現了咱們經常看到的廣義的視頻。在音視頻一塊兒播放的時候,咱們一般須要面臨一個問題:怎麼去同步它們,以避免出現畫不對聲的狀況。

要實現音視頻同步,一般須要選擇一個參考時鐘,參考時鐘上的時間是線性遞增的,編碼音視頻流時依據參考時鐘上的時間給每幀數據打上時間戳。在播放時,讀取數據幀上的時間戳,同時參考當前參考時鐘上的時間來安排播放。這裏的說的時間戳就是咱們前面說的 PTS。實踐中,咱們能夠選擇:同步視頻到音頻、同步音頻到視頻、同步音頻和視頻到外部時鐘。

參考

相關文章
相關標籤/搜索