圖鴨科技斬獲CVPR圖像壓縮挑戰賽冠軍,TNGcnn4p技術全解讀

做者 | 圖鴨科技
編輯 | Vincent
AI 前線導讀:隨着信息時代的到來,互聯網上天天上傳下載的圖片和視頻量呈快速增加狀態,對於傳統壓縮算法的優化彷佛已達到瓶頸,沒法再有更多的提高。在這基礎上,CVPR 做爲專一於計算機視覺的全球頂級會議,在 Google、Twitter 和 Netflix 等的贊助下,舉辦了 2018 機器學習圖像壓縮挑戰賽(CLIC),旨在推動圖像壓縮領域發展。

在剛剛過去的 CVPR 2018 機器學習圖像壓縮挑戰賽,MOS 值、ms-ssim 第一被圖鴨科技的 Tucodec TNGcnn4p 摘獲。

今天和你們介紹一下 MOS 與 MS-SSIM 第一得到者 Tucodec TNGcnn4p,Tucodec TNGcnn4p 是一個基於深度學習的圖像壓縮算法,其主要採用了自編碼網絡算法,並採用了端到端優化的圖像壓縮框架。

更多幹貨內容請關注微信公衆號「AI 前線」,(ID:ai-front)

本文中提出了一種可用於低碼率圖像壓縮,並可進行端到端優化的圖像壓縮框架。在驗證集和測試集上的實驗結果均代表,當使用主觀測評標準做爲損失函數,在 MS-SSIM 和 MOS 等主觀性能指標上能取得最優的性能。算法

深度學習圖像視頻壓縮技術簡單介紹
1:深度學習圖片壓縮的典型框架

2:圖像壓縮數據集

設計好網絡模型後,須要使用圖像進行訓練。因爲圖像壓縮屬於無監督學習,無需人工標註,所以數據集是比較容易蒐集的。不管是從網上爬取,仍是自行使用相機拍攝,都不可貴到大量高清圖片。微信

經常使用的測試集有:網絡

• Kodak PhotoCD 數據集,圖像分辨率 768x512,約 40 萬像素;架構

• Tecnick 數據集,約一百四十萬像素;框架

• CVPR 2018 CLIC 數據集,圖像類別普遍,分辨率不等(512 至 2048),文件尺寸不等(幾百 K 到幾 M)。機器學習

3:深度學習視頻壓縮框架

視頻是由一幀一幀的圖片組成,其壓縮方法與圖像壓縮有一些類似之處,主要區別是,深度學習視頻壓縮相比圖像壓縮增長了幀間預測 / 差值。函數

基於卷積網絡進行幀間預測性能

幀間預測能夠極大的減小視頻幀間冗餘。如 1 個參考幀,預測 N-1 幀爲例,那麼幀間預測的約束爲參考幀和預測碼字遠小於每幀單獨壓縮的碼字:學習

4:深度學習圖片視頻壓縮編碼單元選擇

目前通用的深度學習壓縮主要採用 CNN 作學習預測編碼單元模式分類,在 2016 年 Liu Z、Yu X、Chen S 等發表的 CNN oriented fast HEVC intra CU mode decision 比較詳細的介紹了用 CNN 學習預測編碼單元模式的分類(2N x 2N 或 N x N)。測試

O2N、ON 輸出爲碼率失真代價

5:圖片下采樣編碼

視頻幀內的下采樣,主要採用了分塊處理的方法,區別塊是否適合進行下采樣,以後對適合進行下采樣的塊進行下采樣操做,對於不適合進行下采樣的塊不執行下采樣操做。再完成這以步驟後,根據下采樣塊的狀況分別用 CNN 或 DCTIF 進行上採樣,來重建圖像,固然爲了更好的效果,亮度和色度通道也會根據須要採用不一樣的網絡架構。在這給你們推薦 Jiahao Li 等在 2018 年發表的 Fully Connected Network-Based Intra Prediction for Image Coding 的論文,論文裏有對下采樣方法更加詳細的介紹。

深度學習視頻壓縮的優點和劣勢

隨着傳統壓縮的瓶頸到來,深度學習圖像壓縮的優點被愈來愈多的企業和研究員看到。深度學習在視頻壓縮領域潛力更大。深度學習在視頻壓縮領域的主要優點在於:

  1. 可以更好的實現變換學習,取得更優效果。

  2. 端對端的深度學習算法可以自行學習,不須要手工設計,相比傳統視頻壓縮工做能夠節省不少人力。

  3. 深度學習針對幀間預測採用的是光流法,相比傳統的視頻壓縮使用的啓發式方法,其更加的精確,在壓縮中能夠大大下降幀間冗餘信息。

另外一方面,基於深度學習進行視頻壓縮也會遇到不少挑戰。好比控制實現幀間預測佔用的比特。

圖鴨科技技術介紹

在 CVPR 2018 學習圖像壓縮挑戰上,圖鴨科技的 Tucodec TNGcnn4p 得到了 MOS 與 MS-SSIM 兩項冠軍,綜合排名第一。

TucodecTNGcnn4p 是基於端到端的深度學習算法,其中使用了層次特徵融合的網絡結構,以及新的量化方式、碼字估計技術,主要針對低碼率圖像壓縮。Tucodec TNGcnn4p 網絡使用了卷積模塊和殘差模塊,將損失函數歸入 MS-SSIM。

基於深度學習超分辨率重建圖像

在圖片壓縮領域,圖鴨科技重點關注低碼率圖片的超分辨率重建(SR)。相比高碼率圖片,低碼率圖片的失真較多,應用 SR 技術能夠緩解這些圖像上的瑕疵,得到更好的視覺效果。而高碼率圖片保留的原圖細節更詳細,不多會用到 SR 技術。

相對圖像壓縮而言,深度學習在視頻壓縮領域潛力更大。目前圖鴨科技在基於深度學習的視頻壓縮方面,已經取得與 H265 媲美的效果。

最後附上 Tucodec TNGcnn4p 的論文連接,你們有須要能夠本身下載研讀:

http://openaccess.thecvf.com/CVPR2018_workshops/CVPR2018_W50.py#

相關文章
相關標籤/搜索