視頻通訊中音視頻處理技術

視頻通訊過程當中會涉及到大量的音視頻處理技術,按照在通訊系統中所處位置的不一樣,能夠分爲發送端和接收端的音視頻處理技術。web

發送端的音視頻處理技術主要包括:視頻幀的變換、自適應丟幀、加強;音頻採樣率轉換、回聲消除;音視頻修飾等。這些技術的目的都是爲視頻直播提供高質量或者定製化的信號源。網絡

對於發送端視頻的處理

1、視頻幀的變換

採集到的視頻源首先須要進行裁剪,縮放,自適應丟幀,顏色空間轉換等變換,這些做爲視頻處理的預處理,能夠爲後續操做帶來速度和性能的提高。工具

裁剪:將幀數據裁剪或填充到4字節的整數倍,便於後續能夠進行位移操做或者彙編優化;性能

縮放:如今手機或電腦的攝像頭提供的輸入視頻分辨率在2K左右,若是不加縮放的提供給後續的圖像處理和編碼,對設備處理能力和網絡傳輸帶寬的要求會很高(2K視頻通常須要4Mbps的帶寬支持,才能保證基本的清晰度),尤爲是對延遲很敏感的視頻通訊應用。因此係統實現應根據設備性能和當前網絡狀態,對輸入視頻進行縮放,以此來保證通訊的低延遲和流暢。好比,咱們的AI米聽會檢測CPU性能,再根據目標碼率,計算獲得一個合適的縮放比例,對視頻進行預處理。縮放通常採用彙編實現,也能夠藉助ffmpeg中swscale工具集。學習

2、自適應丟幀

這個處理技術的目的和縮放相似,也是爲了更好的適應設備的處理性能和網絡狀態。可是視頻通訊內容的不一樣,應該選擇不一樣的處理方式。優化

好比,對於人像通訊,適合採用縮放的方式;而對於屏幕分享,適合下降幀率。若是採用相反的技術,效果會不好。這是由於人臉大部分是低頻的內容,縮放不會對人的主觀視頻產生明顯影響,而下降幀率則會產生明顯的不連續性且容易被人察覺;相反,屏幕展現內容中,包含大量的高頻信息(文字,圖表),若是採用降採樣,則會損失大量高頻信息,從而使得內容難以辨認。屏幕分享時,每每是內容的靜止展現,因此此時下降幀率不會明顯影響觀看感覺。編碼

3、視頻加強

對於攝像頭質量不佳,或者低照明度的通訊環境,採集到的視頻幀噪聲大,質量低下,這是須要對視頻內容進行加強。經常使用的技術包括圖像去噪,對比度調整,曝光度調整等。圖像去噪包括經典的高斯濾波,中值濾波,Non-local mean濾波等;對比度和曝光度的調整能夠基於直方圖來作。設計

4、顏色空間轉換

咱們熟知的顏色空間是RGB空間,可是在視頻處理和編碼中每每要轉換成YUV,其中Y是亮度通道,UV是兩個色度通道。咱們人眼對亮度的細節比色度更加敏感,根據這個特性,咱們能夠只對亮度通道進行處理以下降處理複雜度。編碼時,保持色度通道不變而將色度通道降採樣(好比RGB轉換成YUV420,就是從一個像素3個字節變成了一個像素1.5個字節,原始數據量減小了一半),能夠減少碼率,同時又不會對人眼主觀視頻產生明顯影響。視頻

對於發送端音頻的處理

對於發送端音頻處理主要包括:轉換採樣率,去噪和迴音消除。同步

轉換採樣率:和視頻縮放和降採樣同樣的道理,音頻能夠根據設備性能和帶寬需求改變採樣率,來更好的適應通訊環境。

去噪:若是通訊方身處嘈雜的環境,那麼採集到的音頻會包含大量的噪聲。此時能夠設計合適的濾波器對波形進行濾波操做,以保留人聲,去除環境噪聲。

迴音消除:在雙向通訊中,播放對方音頻播放時,直接從麥克風又傳給了對方,會帶來回音。音頻迴音的影響很大,若是不加以抑制,嚴重時會有嘯叫現象,產生刺耳且長時間保持的噪聲。迴音消除的原理簡單能夠描述爲:B收到A的聲音數據,經過喇叭進行播放,此時B須要對輸入到麥克風中的聲音進行處理,識別A的聲音並去除。

音頻處理涉及到大量信號處理的理論,好在不少開源庫都提供了音頻處理的功能,好比ffmpeg、speedx、 webrtc等。

接收端的音視頻處理

接收端的音視頻處理技術主要是爲了恢復出原始音視頻信號,這裏包括的技術有:視頻加強,超分辨;音頻去噪和混音。

視頻加強:在接受端,解碼獲得的視頻會有壓縮失真,好比塊效應,振鈴效應等,因此也須要進行去噪等操做,提升視頻質量。

視頻超分辨:在發送端,會將視頻縮小後進行處理和編碼。那麼在接收端,則須要進行放大,提升視頻分辨率,提高主觀感覺。

音頻去噪:和視頻同樣,音頻也會受到編碼影響,因此也須要進行去噪。

混音:在多人視頻中,會接受到來自多方的音頻信息。此時須要對各路音頻進行混音,混合成一路送進揚聲器進行播放。這個過程當中,通常要先對波形數據進行同步,而後對波形進行疊加,爲了防止破音出現,最後還要進行自動增益控制和防溢出操做。

其餘功能

近年來,隨着音視頻通訊技術的興起,也出了不少新的玩法,好比視頻美顏、表情遷移和變聲等。

視頻美顏:如今已經趨於成熟。主要功能是磨皮,柔光等,大都基於濾波進行操做,好比磨皮採用了雙邊濾波,能夠在保持了人臉輪廓邊緣的同時,將皮膚的瑕疵去除。

表情遷移:基於深度學習的特徵學習技術,能夠快速準確的對人臉器官進行定位,從而可以實現更復雜的修飾技術。好比找準嘴脣,眼睛,面頰以後,能夠進行自動化妝;根據關鍵點和人臉角度,進行人臉映射,達到「換臉」的效果。

音頻變聲技術:一款比較經典的技術,能夠經過改變聲音波形的頻率,振幅來改變音色,達到假裝聲音的目的。而如今已經發展到可讓人模擬別人的聲音的地步。

總結

音視頻通訊處理技術在實際的使用中,仍是要針對不一樣的場景選擇不一樣的技術。只有這樣才能達到最佳的效果。

相關文章
相關標籤/搜索