本次採訪咱們邀請到了金山雲的算法架構師樊鴻飛,主要負責金山雲視頻編解碼、集智高清、圖像加強、圖像壓縮等產品的研發,在採訪中樊博士回顧了本身多年技術研究的心得,也針對AV1當前的生態發表了本身的見解,對於即將到來的5G時代,咱們有理由相信金山雲已經作好的充足的準備。
文 / 樊鴻飛算法
整理 / LiveVideoStack瀏覽器
LiveVideoStack:樊鴻飛你好,感謝接受LiveVideoStack的採訪,可否向LiveVideoStack的讀者簡單介紹下本身。網絡
樊鴻飛:你好,我目前在金山雲擔任算法架構師,是視頻雲部門的視頻編解碼以及AI算法負責人,涉及的方向主要包括視頻編碼、計算機視覺、圖像處理、圖像壓縮。我博士畢業於北京大學信息科學技術學院,本科畢業於上海交通大學軟件學院。我在博士期間的研究方向主要是視頻編碼、計算機視覺以及特徵編碼。架構
LiveVideoStack:從你的我的經從來看,近年來主要從事視頻編碼、圖像處理、計算機視覺方向上的研究,從技術發展的角度來看有沒有令你印象深入的事情?ide
樊鴻飛:我印象比較深入的是,作技術研究須要結合當前階段的實際狀況考慮。從一個細節來舉例,隨着網絡帶寬的變化,雲轉碼的碼控策略是在發生變化的。性能
在弱網環境下,最須要解決的是QoS的卡頓率高的問題,不是網絡傳輸成本。此時雲轉碼常用cbr碼控策略。然而,這種策略不管是在實踐中,或是在paper裏,都很難達到定QP的編碼水準,特別是在包含複雜場景切換的時候。學習
隨着網絡帶寬的增加,卡頓率已經比較低,轉碼後成本已經變得更加劇要了,這種狀況下,最多見的雲轉碼使用的是crf碼控策略,這種策略實現起來很是簡單,而且rd性能每每優於cbr不少。測試
不過,cbr也並不是沒有研究意義,相反在RTC的會議通訊裏仍有很大的研究價值,只是在雲轉碼場景中用的很少了。所以,技術的研究須要考慮整個時代技術的發展,想明白真正的使用場景,盲目的進行優化有可能會走彎路。優化
LiveVideoStack:說說目前你在金山雲負責的工做和研究方向吧。編碼
樊鴻飛:目前主要是負責兩部分,一個是視頻雲轉碼,一個是AI算法。
雲轉碼方面主要是編解碼器優化,目前咱們除了在作H.26四、H.265的持續優化之外,也開始進軍AV1。咱們認爲AV1是更好的4K/8K視頻編碼解決方案,是對5G時代進行的探索。
AI算法方面,關心過金山雲的朋友們應該或多或少據說過咱們的集智高清產品。集智高清主要是利用AI對視頻進行分析,解決了三大傳統雲轉碼算法解決不了的難題:1)低清視頻恢復問題;2)碼率分辨率智能決策問題;3)編碼器全局優化問題。除了集智高清以外,咱們也在作基於AI的有參考評價指標,在這方面金山雲有很長時間的積累,對內使用時表現的不錯,將來可能會公開咱們的算法,你們能夠期待一下。其餘的應用還有視頻標籤、智能封面、精彩集錦、去水印、智能審覈等。
LiveVideoStack:金山雲的集智高清產品目前在行業中屬於什麼水平?集智高清適合於哪些場景的落地?能給金山云云轉碼帶來了哪些用戶體驗的提高?
樊鴻飛:目前金山雲的集智高清產品處於行業領先的水平,在UGC短視頻場景下能夠作到行業領先。
在剛纔的問題裏也說起了,傳統編碼器作雲轉碼存在三個問題,利用AI+編碼技術能夠爲全部的轉碼場景提供更高的壓縮率。咱們所推出的集智高清產品能夠適用於絕大部分視頻場景,包括秀場、電影、監控、教育、綜藝、體育等等。另外,因爲低清視頻轉碼提高很明顯,因此最大增益的場景仍是低清的UGC短視頻,這也是目前使用集智高清服務數量最多的用戶場景。
對於使用集智高清的用戶來講,根據咱們測試的結果,首先由於碼率的下降,在點播和直播的QoS上有很大的提高,包括首幀、卡頓率、卡頓時間等;其次在主觀上存在增益,一方面塊級智能決策能夠很好地避免塊效應,減小低清視頻比率,下降產生用戶反感的塊效應的可能性,另外一方面利用AI的修復能力可以有效避免第一次編碼可能形成的壓縮噪聲,同時也能夠對人臉等關鍵區域進行修復,去除運動模糊,還可以利用幀間信息修復因對焦失真產生的模糊。
LiveVideoStack:AI在編碼生態中的哪些場景的應用你會比較看好,好比前處理、編碼、深度網絡直接壓縮算法、後處理等?
樊鴻飛:目前AI在上述提到的方向中多多少少都有應用。
在前處理中,攝像頭自己就自帶ISP,沒有作前處理的裸流會存在不少問題,所以這是一個研究了好久的方向。若是是雲轉碼的話,不進行前處理極可能首次編碼的壓縮噪聲會被編碼器看成信息量進行編碼,從而帶來額外的碼率。另外超分辨率算法能夠應用在前處理中,造成解碼+超分+編碼的雲轉碼流程,提供更清晰的視頻體驗。
在後處理中,我認爲目前AI應用於編碼標準的環內濾波比較難,畢竟有低端設備可能解碼解不動。可是若是將AI應用於環外濾波,就具備更大的靈活性,低端設備能夠選擇不作處理,高端設備進行處理。固然這兩種濾波對應的策略也有所不一樣,環內濾波能夠着重去除編碼留下的壓縮噪聲,給後續幀提供更好的參考幀,而環外濾波能夠作一些對比度加強、暗場加強等等。
在編碼方面,利用深度學習能夠作全局優化,由於基於率失真的編碼器優化是一種局部最優策略,沒法作到全局最優,特別是對於AV1存在非對稱塊劃分,深度學習的塊劃分能夠帶來性能提高。
在利用網絡直接作End-to-End壓縮方面,雖然已有算法在Intra編碼上採用該策略,可是目前尚且沒有基於該策略的視頻編碼算法出現。不過在視頻編碼中Intra的碼率佔比並不高,對於圖像壓縮來講帶來的增益尚不足以彌補解碼負擔增大帶來的反作用,目前看這仍是一個須要繼續探索才能大規模商用的方向。
總之,我以爲AI在編碼當中的應用仍是比較普遍的,只是在研究以前仍是須要儘可能避免拿着錘子找釘子的狀況。
LiveVideoStack:與同類的音視頻服務平臺相比,金山雲的技術特點有哪些?
樊鴻飛:這是一個很棒的問題。首先,金山視頻雲在直播、點播CDN質量上處於領先地位,行業排名前茅。在穩定性上,咱們承諾提供大主播保障能力、重大事件及賽事重保方案。金山視頻雲具有完善的監控和告警體系,爲客戶提供7x24小時售後服務。在視頻編碼方面,KSC265編碼速度及壓縮率處於行業領先水平,結合AI的集智高清能夠支持在同畫質下壓縮率達到60%的雲轉碼服務,爲客戶提供最優成本下的高清體驗。除此以外,還有PCDN支持,KCP內部鏈路加速,支持QUIC協議通道等等也都提供了更好的支持。
LiveVideoStack:金山雲目前正積極推進新一代視頻編碼技術AV1有哪些落地的產品和方案?這些產品面向哪些場景和用戶?
樊鴻飛:AV1相較於H.265來講具有更好的專利生態。下圖是目前金山AV1的轉碼效果。在原始3.3M碼率的遊戲視頻下,編碼器壓縮至0.67M時(壓縮率80%),H.265已經產生塊效應,但AV1能保證更好的主觀效果。
目前金山雲的AV1是以雲轉碼服務爲主,將來仍是會提供私有化部署。咱們的基於AV1的雲轉碼服務對於這三類用戶將更有吸引力。
第一類是對專利費敏感型的用戶,AV1相較於H.265來講具有更好的專利生態,所以在這一點上AV1相對於H.265仍是有比較大的優點;
第二類是Web端有大量播放需求的用戶,H.265的專利問題使得經常使用的瀏覽器內核好比Chrome、Firefox均不支持H.265解碼。
第三類是適合有4K及以上分辨率視頻的用戶,由於AV1對大分辨率視頻的支持要更好,然而對於UGC低清視頻, 在UGC視頻分辨率和質量提高以前,金山雲集智高清也將提供基於AV1的低清視頻解決方案。
LiveVideoStack:5G時代的來臨視頻體量呈爆炸式增加,這對雲轉碼技術也提出了更高的要求,金山雲在視頻雲轉碼領域深耕多年,都作了哪些準備?除了雲轉碼之外,金山雲還有什麼新產品來應對來臨的5G時代?
樊鴻飛:5G時代的視頻必定是高清高分辨率的。5G時代初期的一大痛點就是成本高,一是獲取高清視頻的成本高,二是傳輸存儲高清視頻的成本高,三是5G網絡建設成本高。金山視頻雲在解決前兩個難題上都有所準備。
針對獲取高清視頻來講,咱們於2018年發佈了畫質加強KIE(Kingsoft Image &AI Enhancement)產品,將其應用於移動終端或圖片傳輸中,可爲用戶帶來超清的圖像視覺體驗或節省圖片傳輸帶寬成本,並已集成在了小米手機MUI中。咱們關於超分辨率的研發腳步歷來沒有中止,目前KIE已經實現利用GAN來生成以假亂真的細節。除此以外,咱們經過在超分辨率模型中融合時域信息達到了去運動模糊、HDR等效果,能爲廣大視頻用戶生成更真實的4K/8K視頻。
針對高清高分辨率視頻的壓縮,AV1是咱們迎接5G時代的另外一個準備。AV1做爲下一代視頻編碼標準,宏塊大小從64x64增大到了128x128,同時具備非對稱塊劃分,這些都是爲4K甚至8K視頻量身定製的模式。在高分辨率視頻中,AV1具有比上一代編碼標準更大的優點。在H.265的時代,金山雲就處於行業領先水平,藉助數年積累的編解碼經驗,咱們將爲客戶提供完善的、極致壓縮率的全鏈路4K/8K視頻編解碼服務。
除了上述兩點,因爲5G有着低時延、高帶寬等特色,將催生大量新的應用和場景,會對網絡性能提出更高要求,所以須要新的網絡技術和架構,以知足這些新應用的需求。邊緣計算就是爲了知足不一樣應用帶來的多樣化網絡需求的核心技術之一。在5G時代,經過在傳輸網架構中引入邊緣計算技術,可下降時延和帶寬傳輸成本,提升內容分發效率和用戶體驗,避免因大流量應用(如8K視頻、VR等)的數據回傳佔用大量帶寬,從而形成網絡擁堵甚至崩潰的問題。做爲視頻行業公認的雲服務領軍企業,金山雲依託頂級的基礎設施和技術積累,不斷引領行業發展。
針對上述問題和需求,金山雲CDN結合邊緣計算向下一代內容分發平臺升級這一典型場景,藉助全球1000+節點,100T帶寬等強大資源,將推出基於邊緣節點的計算服務平臺KENC(Kingsoft Edge Node Computing),KENC是運行在金山雲CDN邊緣節點上的一套容器雲平臺,它支持在邊緣運行自定義的容器鏡像,依託CDN網絡主推容器雲平臺,面向大客戶提供自控節點容器雲,並向中小客戶提供自動調度容器雲,經過就近計算原則,將算力高效分發到全區域覆蓋,從而提供高性能、低延時的邊緣計算服務,將雲端的超強處理能力和本地設備的流暢操做感覺相結合,提升了用戶的使用體驗,並助力客戶探索更多可行的商業模式。同時,金山雲正在打造包括邊緣數據中心、家庭IoT以及鏈接邊和端的1KM邊緣計算在內的一體化解決方案,加速服務智能時代。