指導5：同步視頻

時間 2019-11-17

標籤指導同步視頻简体版

原文原文鏈接

如何同步視頻ide

前面整個的一段時間，咱們有了一個幾乎無用的電影播放器。固然，它能播放視頻，也能播放音頻，可是它還不能被稱爲一部電影。那麼咱們還要作什麼呢？函數

PTS和DTSui

幸運的是，音頻和視頻流都有一些關於以多快速度和什麼時間來播放它們的信息在裏面。音頻流有采樣，視頻流有每秒的幀率。然而，若是咱們只是簡單的經過數幀和乘以幀率的方式來同步視頻，那麼就頗有可能會失去同步。因而做爲一種補充，在流中的包有種叫作DTS（解碼時間戳）和PTS（顯示時間戳）的機制。爲了這兩個參數，你須要瞭解電影存放的方式。像MPEG等格式，使用被叫作B幀（B表示雙向bidrectional）的方式。另外兩種幀被叫作I幀和P幀（I表示關鍵幀，P表示預測幀）。I幀包含了某個特定的完整圖像。P幀依賴於前面的I幀和P幀而且使用比較或者差分的方式來編碼。B幀與P幀有點相似，可是它是依賴於前面和後面的幀的信息的。這也就解釋了爲何咱們可能在調用avcodec_decode_video之後會得不到一幀圖像。編碼

因此對於一個電影，幀是這樣來顯示的：I B B P。如今咱們須要在顯示B幀以前知道P幀中的信息。所以，幀可能會按照這樣的方式來存儲：IPBB。這就是爲何咱們會有一個解碼時間戳和一個顯示時間戳的緣由。解碼時間戳告訴咱們何時須要解碼，顯示時間戳告訴咱們何時須要顯示。因此，在這種狀況下，咱們的流能夠是這樣的：spa

PTS: 1 4 2 3線程

DTS: 1 2 3 4指針

Stream: I P B Bcode

一般PTS和DTS只有在流中有B幀的時候會不一樣。component

當咱們調用av_read_frame()獲得一個包的時候，PTS和DTS的信息也會保存在包中。可是咱們真正想要的PTS是咱們剛剛解碼出來的原始幀的PTS，這樣咱們才能知道何時來顯示它。然而，咱們從avcodec_decode_video()函數中獲得的幀只是一個AVFrame，其中並無包含有用的PTS值（注意：AVFrame並無包含時間戳信息，但當咱們等到幀的時候並非咱們想要的樣子）。然而，ffmpeg從新排序包以便於被avcodec_decode_video()函數處理的包的DTS能夠老是與其返回的PTS相同。可是，另外的一個警告是：咱們也並非總能獲得這個信息。orm

不用擔憂，由於有另一種辦法能夠找到帖的PTS，咱們可讓程序本身來從新排序包。咱們保存一幀的第一個包的PTS：這將做爲整個這一幀的PTS。咱們能夠經過函數avcodec_decode_video()來計算出哪一個包是一幀的第一個包。怎樣實現呢？任什麼時候候當一個包開始一幀的時候，avcodec_decode_video()將調用一個函數來爲一幀申請一個緩衝。固然，ffmpeg容許咱們從新定義那個分配內存的函數。因此咱們製做了一個新的函數來保存一個包的時間戳。

固然，儘管那樣，咱們可能仍是得不到一個正確的時間戳。咱們將在後面處理這個問題。

同步

如今，知道了何時來顯示一個視頻幀真好，可是咱們怎樣來實際操做呢？這裏有個主意：當咱們顯示了一幀之後，咱們計算出下一幀顯示的時間。而後咱們簡單的設置一個新的定時器來。你可能會想，咱們檢查下一幀的PTS值而不是系統時鐘來看超時是否會到。這種方式能夠工做，可是有兩種狀況要處理。

首先，要知道下一個PTS是什麼。如今咱們能添加視頻速率到咱們的PTS中－－太對了！然而，有些電影須要幀重複。這意味着咱們重複播放當前的幀。這將致使程序顯示下一幀太快了。因此咱們須要計算它們。

第二，正如程序如今這樣，視頻和音頻播放很歡快，一點也不受同步的影響。若是一切都工做得很好的話，咱們沒必要擔憂。可是，你的電腦並非最好的，不少視頻文件也不是無缺的。因此，咱們有三種選擇：同步音頻到視頻，同步視頻到音頻，或者都同步到外部時鐘（例如你的電腦時鐘）。從如今開始，咱們將同步視頻到音頻。

寫代碼：得到幀的時間戳

如今讓咱們到代碼中來作這些事情。咱們將須要爲咱們的大結構體添加一些成員，可是咱們會根據須要來作。首先，讓咱們看一下視頻線程。記住，在這裏咱們獲得瞭解碼線程輸出到隊列中的包。這裏咱們須要的是從avcodec_decode_video函數中獲得幀的時間戳。咱們討論的第一種方式是從上次處理的包中獲得DTS，這是很容易的：

double pts;

for(;;) {

if(packet_queue_get(&is->videoq, packet, 1) < 0) {

// means we quit getting packets

break;

}

pts = 0;

// Decode video frame

len1 = avcodec_decode_video(is->video_st->codec,

pFrame, &frameFinished,

packet->data, packet->size);

if(packet->dts != AV_NOPTS_VALUE) {

pts = packet->dts;

} else {

pts = 0;

}

pts *= av_q2d(is->video_st->time_base);

若是咱們得不到PTS就把它設置爲0。

好，那是很容易的。可是咱們所說的若是包的DTS不能幫到咱們，咱們須要使用這一幀的第一個包的PTS。咱們經過讓ffmpeg使用咱們本身的申請幀程序來實現。下面的是函數的格式：

int get_buffer(struct AVCodecContext *c, AVFrame *pic);

void release_buffer(struct AVCodecContext *c, AVFrame *pic);

申請函數沒有告訴咱們關於包的任何事情，因此咱們要本身每次在獲得一個包的時候把PTS保存到一個全局變量中去。咱們本身以讀到它。而後，咱們把值保存到AVFrame結構體難理解的變量中去。因此一開始，這就是咱們的函數：

uint64_t global_video_pkt_pts = AV_NOPTS_VALUE;

int our_get_buffer(struct AVCodecContext *c, AVFrame *pic) {

int ret = avcodec_default_get_buffer(c, pic);

uint64_t *pts = av_malloc(sizeof(uint64_t));

*pts = global_video_pkt_pts;

pic->opaque = pts;

return ret;

}

void our_release_buffer(struct AVCodecContext *c, AVFrame *pic) {

if(pic) av_freep(&pic->opaque);

avcodec_default_release_buffer(c, pic);

}

函數avcodec_default_get_buffer和avcodec_default_release_buffer是ffmpeg中默認的申請緩衝的函數。函數av_freep是一個內存管理函數，它不但把內存釋放並且把指針設置爲NULL。

如今到了咱們流打開的函數（stream_component_open），咱們添加這幾行來告訴ffmpeg如何去作：

codecCtx->get_buffer = our_get_buffer;

codecCtx->release_buffer = our_release_buffer;

如今咱們必需添加代碼來保存PTS到全局變量中，而後在須要的時候來使用它。咱們的代碼如今看起來應該是這樣子：

for(;;) {

if(packet_queue_get(&is->videoq, packet, 1) < 0) {

// means we quit getting packets

break;

}

pts = 0;

// Save global pts to be stored in pFrame in first call

global_video_pkt_pts = packet->pts;

// Decode video frame

len1 = avcodec_decode_video(is->video_st->codec, pFrame, &frameFinished,

packet->data, packet->size);

if(packet->dts == AV_NOPTS_VALUE

&& pFrame->opaque && *(uint64_t*)pFrame->opaque != AV_NOPTS_VALUE) {

pts = *(uint64_t *)pFrame->opaque;

} else if(packet->dts != AV_NOPTS_VALUE) {

pts = packet->dts;

} else {

pts = 0;

}

pts *= av_q2d(is->video_st->time_base);

技術提示：你可能已經注意到咱們使用int64來表示PTS。這是由於PTS是以整型來保存的。這個值是一個時間戳至關於時間的度量，用來以流的time_base爲單位進行時間度量。例如，若是一個流是24幀每秒，值爲42的PTS表示這一幀應該排在第42個幀的位置若是咱們每秒有24幀（這裏並不徹底正確）。

咱們能夠經過除以幀率來把這個值轉化爲秒。流中的time_base值表示1/framerate（對於固定幀率來講），因此獲得了以秒爲單位的PTS，咱們須要乘以time_base。

寫代碼：使用PTS來同步

如今咱們獲得了PTS。咱們要注意前面討論到的兩個同步問題。咱們將定義一個函數叫作synchronize_video，它能夠更新同步的PTS。這個函數也能最終處理咱們得不到PTS的狀況。同時咱們要知道下一幀的時間以便於正確設置刷新速率。咱們可使用內部的反映當前視頻已經播放時間的時鐘video_clock來完成這個功能。咱們把這些值添加到大結構體中。

typedef struct VideoState {

double video_clock; ///

下面的是函數synchronize_video，它能夠很好的自我註釋：

double synchronize_video(VideoState *is, AVFrame *src_frame, double pts) {

double frame_delay;

if(pts != 0) {

is->video_clock = pts;

} else {

pts = is->video_clock;

}

frame_delay = av_q2d(is->video_st->codec->time_base);

frame_delay += src_frame->repeat_pict * (frame_delay * 0.5);

is->video_clock += frame_delay;

return pts;

}

你也會注意到咱們也計算了重複的幀。

如今讓咱們獲得正確的PTS而且使用queue_picture來隊列化幀，添加一個新的時間戳參數pts：

// Did we get a video frame?

if(frameFinished) {

pts = synchronize_video(is, pFrame, pts);

if(queue_picture(is, pFrame, pts) < 0) {

break;

}

對於queue_picture來講惟一改變的事情就是咱們把時間戳值pts保存到VideoPicture結構體中，咱們咱們必需添加一個時間戳變量到結構體中而且添加一行代碼：

typedef struct VideoPicture {

...

double pts;

}

int queue_picture(VideoState *is, AVFrame *pFrame, double pts) {

... stuff ...

if(vp->bmp) {

... convert picture ...

vp->pts = pts;

... alert queue ...

}

如今咱們的圖像隊列中的全部圖像都有了正確的時間戳值，因此讓咱們看一下視頻刷新函數。你會記得上次咱們用80ms的刷新時間來欺騙它。那麼，如今咱們將會算出實際的值。

咱們的策略是經過簡單計算前一幀和如今這一幀的時間戳來預測出下一個時間戳的時間。同時，咱們須要同步視頻到音頻。咱們將設置一個音頻時間audio clock；一個內部值記錄了咱們正在播放的音頻的位置。就像從任意的mp3播放器中讀出來的數字同樣。既然咱們把視頻同步到音頻，視頻線程使用這個值來算出是否太快仍是太慢。

咱們將在後面來實現這些代碼；如今咱們假設咱們已經有一個能夠給咱們音頻時間的函數get_audio_clock。一旦咱們有了這個值，咱們在音頻和視頻失去同步的時候應該作些什麼呢？簡單而有點笨的辦法是試着用跳過正確幀或者其它的方式來解決。做爲一種替代的手段，咱們會調整下次刷新的值；若是時間戳太落後於音頻時間，咱們加倍計算延遲。若是時間戳太領先於音頻時間，咱們將盡量快的刷新。既然咱們有了調整過的時間和延遲，咱們將把它和咱們經過frame_timer計算出來的時間進行比較。這個幀時間frame_timer將會統計出電影播放中全部的延時。換句話說，這個frame_timer就是指咱們何時來顯示下一幀。咱們簡單的添加新的幀定時器延時，把它和電腦的系統時間進行比較，而後使用那個值來調度下一次刷新。這可能有點難以理解，因此請認真研究代碼：

void video_refresh_timer(void *userdata) {

VideoState *is = (VideoState *)userdata;

VideoPicture *vp;

double actual_delay, delay, sync_threshold, ref_clock, diff;

if(is->video_st) {

if(is->pictq_size == 0) {

schedule_refresh(is, 1);

} else {

vp = &is->pictq[is->pictq_rindex];

delay = vp->pts - is->frame_last_pts;

if(delay <= 0 || delay >= 1.0) {

delay = is->frame_last_delay;

}

is->frame_last_delay = delay;

is->frame_last_pts = vp->pts;

ref_clock = get_audio_clock(is);

diff = vp->pts - ref_clock;

sync_threshold = (delay > AV_SYNC_THRESHOLD) ? delay : AV_SYNC_THRESHOLD;

if(fabs(diff) < AV_NOSYNC_THRESHOLD) {

if(diff <= -sync_threshold) {

delay = 0;

} else if(diff >= sync_threshold) {

delay = 2 * delay;

}

is->frame_timer += delay;

actual_delay = is->frame_timer - (av_gettime() / 1000000.0);

if(actual_delay < 0.010) {

actual_delay = 0.010;

}

schedule_refresh(is, (int)(actual_delay * 1000 + 0.5));

video_display(is);

if(++is->pictq_rindex == VIDEO_PICTURE_QUEUE_SIZE) {

is->pictq_rindex = 0;

}

SDL_LockMutex(is->pictq_mutex);

is->pictq_size--;

SDL_CondSignal(is->pictq_cond);

SDL_UnlockMutex(is->pictq_mutex);

}

} else {

schedule_refresh(is, 100);

}

咱們在這裏作了不少檢查：首先，咱們保證如今的時間戳和上一個時間戳之間的處以delay是有意義的。若是不是的話，咱們就猜想着用上次的延遲。接着，咱們有一個同步閾值，由於在同步的時候事情並不老是那麼完美的。在ffplay中使用0.01做爲它的值。咱們也保證閾值不會比時間戳之間的間隔短。最後，咱們把最小的刷新值設置爲10毫秒。

（這句不知道應該放在哪裏）事實上這裏咱們應該跳過這一幀，可是咱們不想爲此而煩惱。

咱們給大結構體添加了不少的變量，因此不要忘記檢查一下代碼。同時也不要忘記在函數streame_component_open中初始化幀時間frame_timer和前面的幀延遲frame delay：

is->frame_timer = (double)av_gettime() / 1000000.0;

is->frame_last_delay = 40e-3;

同步：聲音時鐘

如今讓咱們看一下怎樣來獲得聲音時鐘。咱們能夠在聲音解碼函數audio_decode_frame中更新時鐘時間。如今，請記住咱們並非每次調用這個函數的時候都在處理新的包，因此有咱們要在兩個地方更新時鐘。第一個地方是咱們獲得新的包的時候：咱們簡單的設置聲音時鐘爲這個包的時間戳。而後，若是一個包裏有許多幀，咱們經過樣本數和採樣率來計算，因此當咱們獲得包的時候：

if(pkt->pts != AV_NOPTS_VALUE) {

is->audio_clock = av_q2d(is->audio_st->time_base)*pkt->pts;

}

而後當咱們處理這個包的時候：

pts = is->audio_clock;

*pts_ptr = pts;

n = 2 * is->audio_st->codec->channels;

is->audio_clock += (double)data_size /

(double)(n * is->audio_st->codec->sample_rate);

一點細節：臨時函數被改爲包含pts_ptr，因此要保證你已經改了那些。這時的pts_ptr是一個用來通知audio_callback函數當前聲音包的時間戳的指針。這將在下次用來同步聲音和視頻。

如今咱們能夠最後來實現咱們的get_audio_clock函數。它並不像獲得is->audio_clock值那樣簡單。注意咱們會在每次處理它的時候設置聲音時間戳，可是若是你看了audio_callback函數，它花費了時間來把數據從聲音包中移到咱們的輸出緩衝區中。這意味着咱們聲音時鐘中記錄的時間比實際的要早太多。因此咱們必需要檢查一下咱們還有多少沒有寫入。下面是完整的代碼：

double get_audio_clock(VideoState *is) {

double pts;

int hw_buf_size, bytes_per_sec, n;

pts = is->audio_clock;

hw_buf_size = is->audio_buf_size - is->audio_buf_index;

bytes_per_sec = 0;

n = is->audio_st->codec->channels * 2;

if(is->audio_st) {

bytes_per_sec = is->audio_st->codec->sample_rate * n;

}

if(bytes_per_sec) {

pts -= (double)hw_buf_size / bytes_per_sec;