淺談AI視頻技術超分辨率

泛娛樂應用成爲主流,社交與互動性強是共性,而具有這些特性的產品每每都集中在直播、短視頻、圖片分享社區等社交化娛樂產品,而在這些產品背後的黑科技持續成爲關注重點,網易雲信在網易MCtalk 泛娛樂創新峯會上重點介紹了超越像素的AI視頻黑科技「超分」。
超分辨率(Super-Resolution)經過硬件或軟件方法提升原有圖像的分辨率,經過一幅或者多幅低分辨率的圖像來獲得一幅高分辨率的圖像過程就是超分辨率重建,能夠經過人工智能深度學習將低分辨率視頻重建成高分辨率視頻模糊圖像、視頻瞬間變高清,爲移動端爲用戶帶來極致視頻體驗。
什麼是超分辨率
廣義的超分辨率 (SR, Super Resolution) 是指一類用於提高圖像分辨率的技術。這類技術已經存在了很長一段時間,應用也很是普遍。事實上,每當咱們須要以不一樣於原始分辨率的尺寸來顯示或存儲圖像時,就已經使用了SR,只不過使用的是其中最爲簡單的那類算法而已。
隨着圖像處理理論的發展,以及機器學習的普及和更高性能的處理器的出現,各種更優秀的SR算法陸續出現。如今咱們說起SR時,每每是特指依靠機器學習來實現的圖像放大算法。下文提到SR時也均特指這類算法。它可以提供遠超於傳統圖像放大算法的圖像質量。固然,運算量也要高得多。算法

圖1. 將原始圖像縮小3倍後分別使用Bicubic (一種傳統圖像放大算法) 和SRCNN (一種基於CNN的圖像放大算法) 進行放大[1]。
超分辨率理論描述
SR算法本質上和傳統圖像放大算法沒什麼不一樣,都是利用已有的圖像信息去預測須要的像素點。只不過傳統算法的預測模型很是簡單,能夠經過人工設計的方式實現。例如雙線性插值,就是利用目標像素周圍的四個點來作預測,離目標位置越近的點權重越大,經過一個簡單的公式就能獲得結果: f(x,y)=f(0,0)(1-x)(1-y)+f(1,0)x(1-y)+f(0,1)(1-x)y+f(1,1)xy網絡

圖2. 雙線性插值,經過Q11~Q22這四個點預測點P
而現代SR算法爲了獲得更精確的預測結果,其預測模型則複雜了不少。通常有多個卷積層和激活層,會利用到目標像素周圍很大一片區域的圖像信息,包含成千上萬個模型參數,純靠人工設計是不現實的。因此人們纔會依靠機器學習的方式來決定參數。這種作法還附帶有很多好處。例如你無需對圖像處理有深厚的理解就能夠訓練模型,再好比你能夠根據本身的應用場景調整訓練集,從而獲得更適合你的預測模型。
下圖是一個簡單的例子,來自經典的超分算法SRCNN[1]。模型基於卷積神經網絡,以原始圖像爲輸入,先是用廉價的上採樣算法將分辨率提高到指望的大小, 而後通過3層分別爲9x9x128,3x3x64,5x5的卷積運算,獲得超分輸出。架構

圖3. SRCNN網絡結構
這幾年每屆超分競賽都會出現很多值得借鑑的新理論和新實現,SR的效果上限被不斷提升。介紹這些算法的文章有不少,感興趣的讀者能夠自行搜索。
何時用超分辨率
雖然視覺效果很好,但SR在使用上有幾方面限制須要咱們注意。其中最重要的就是性能這個硬性指標。即使是極爲簡單的SR算法,其運算量也是傳統放大算法的上千倍,可否知足應用的性能需求是須要通過測試和優化的。
另外,目前的SR算法主要分兩個流派,一派的目標是儘量地還原信息,另外一派則容許在不影響視覺體驗的前提下對內容進行一些修改。咱們須要根據應用場景來選擇不一樣的算法。若是在對圖像還原度要求較高的場合下使用了不適當的SR算法,可能帶來很差的後果。機器學習

圖4. 上圖左側爲SRGAN模型[2]放大4倍生成的圖片,能夠看到首飾的紋理被大幅修改。
還有一點,目前的SR算法大都針對天然圖像。對於一些特殊的圖像,例如由於縮小而失真的文字,直接使用SR算法去放大的效果實際測試下來並不理想。性能

圖5. 直接使用SR並不能較好地還原失真的文字
超分辨率的優點
基於深度學習的超分技術能較好的恢復圖像細節. 在視頻發送源可能由於種種客觀限制, 沒法提供高分辨率的視頻. 好比攝像頭採集能力不足, 網絡帶寬不足,源端處理能力不足等, 在這些情形下, 若是雲端或者接收端的處理能力知足要求, 能夠藉助超分技術, 對於視頻質量作恢復, 呈現給用戶高質量的視頻. 因此超分技術爲在惡劣的客觀條件下的視頻應用提供了高質量呈現的可能, 是傳統的應用藉助人工智能技術提高使用體驗的一種典型落地場景.
網易雲信在超分辨率的實踐
網易雲信提供了點播直播和實時音視頻等技術能力。 支持的終端包括Windows PC, MAC, iPhone, iPad, Android手機, 機頂盒, 智能手錶等可穿戴設備。其中可穿戴設備, 機頂盒等終端的成本控制比較嚴格, 一般CPU處理能力相對較弱, 沒法支持高清, 甚至標清的視頻規格, 可是做爲這些終端的使用者, 它們依然但願看到高清或標清的視頻質量, 接收的終端多是PC或者性能較好的手機, 平板電腦等設備,他們本身可能有能力提供優秀的計算資源。在這種場景下, 網易雲信能夠在接收的終端上經過超分辨率技術, 恢復視頻質量,極大地提高了移動端用戶的體驗。若是接收的終端自己運算能力不足以支撐深度學習, 可是有能力處理高清視頻的解碼, 網易雲信依然能夠在雲端對低分辨率的視頻進行處理, 採用包括超分在內的技術,對質量恢復後,將高質量的視頻提供到接收終端。
尤爲針對弱網狀況,雲信將在雲端或者接收終端經過超分技術對質量進行補償, 爲用戶呈現超高質量視頻。雲信經過人工智能深度學習將低分辨率視頻重建成高分辨率視頻模糊圖像、視頻瞬間變高清,爲移動端爲用戶帶來極致視頻體驗。
[1] C. Dong, C. C. Loy, K. He, and X. Tang. Learning a deep convolutional network for image super-resolution. In European Conference on Computer Vision (ECCV), pages 184–199. Springer,
2014.
[2] Ledig C, Theis L,Huszar F, et al. Photo-Realistic Single Image Super-Resolution Using a Generative Adversarial Network[J]. 2016:105-114.學習

想要閱讀更多技術乾貨、行業洞察,歡迎關注網易雲信博客。測試

瞭解網易雲信,來自網易核心架構的通訊與視頻雲服務。優化

相關文章
相關標籤/搜索