圖鴨科技斬獲CVPR圖像壓縮挑戰賽冠軍，TNGcnn4p技術全解讀

時間 2019-12-06

標籤科技斬獲 cvpr 圖像壓縮挑戰冠軍 tngcnn4p tngcnn 技術解讀简体版

原文原文鏈接

做者 | 圖鴨科技

編輯 | Vincent

AI 前線導讀：隨着信息時代的到來，互聯網上天天上傳下載的圖片和視頻量呈快速增加狀態，對於傳統壓縮算法的優化彷佛已達到瓶頸，沒法再有更多的提高。在這基礎上，CVPR 做爲專一於計算機視覺的全球頂級會議，在 Google、Twitter 和 Netflix 等的贊助下，舉辦了 2018 機器學習圖像壓縮挑戰賽（CLIC），旨在推動圖像壓縮領域發展。

在剛剛過去的 CVPR 2018 機器學習圖像壓縮挑戰賽，MOS 值、ms-ssim 第一被圖鴨科技的 Tucodec TNGcnn4p 摘獲。

今天和你們介紹一下 MOS 與 MS-SSIM 第一得到者 Tucodec TNGcnn4p，Tucodec TNGcnn4p 是一個基於深度學習的圖像壓縮算法，其主要採用了自編碼網絡算法，並採用了端到端優化的圖像壓縮框架。

更多幹貨內容請關注微信公衆號「AI 前線」，（ID：ai-front）

本文中提出了一種可用於低碼率圖像壓縮，並可進行端到端優化的圖像壓縮框架。在驗證集和測試集上的實驗結果均代表，當使用主觀測評標準做爲損失函數，在 MS-SSIM 和 MOS 等主觀性能指標上能取得最優的性能。算法

深度學習圖像視頻壓縮技術簡單介紹

1：深度學習圖片壓縮的典型框架

2：圖像壓縮數據集

設計好網絡模型後，須要使用圖像進行訓練。因爲圖像壓縮屬於無監督學習，無需人工標註，所以數據集是比較容易蒐集的。不管是從網上爬取，仍是自行使用相機拍攝，都不可貴到大量高清圖片。微信

經常使用的測試集有：網絡

• Kodak PhotoCD 數據集，圖像分辨率 768x512，約 40 萬像素；架構

• Tecnick 數據集，約一百四十萬像素；框架

• CVPR 2018 CLIC 數據集，圖像類別普遍，分辨率不等（512 至 2048），文件尺寸不等（幾百 K 到幾 M）。機器學習

3：深度學習視頻壓縮框架

視頻是由一幀一幀的圖片組成，其壓縮方法與圖像壓縮有一些類似之處，主要區別是，深度學習視頻壓縮相比圖像壓縮增長了幀間預測 / 差值。函數

基於卷積網絡進行幀間預測性能

幀間預測能夠極大的減小視頻幀間冗餘。如 1 個參考幀，預測 N-1 幀爲例，那麼幀間預測的約束爲參考幀和預測碼字遠小於每幀單獨壓縮的碼字：學習

4：深度學習圖片視頻壓縮編碼單元選擇

目前通用的深度學習壓縮主要採用 CNN 作學習預測編碼單元模式分類，在 2016 年 Liu Z、Yu X、Chen S 等發表的 CNN oriented fast HEVC intra CU mode decision 比較詳細的介紹了用 CNN 學習預測編碼單元模式的分類（2N x 2N 或 N x N）。測試

O2N、ON 輸出爲碼率失真代價

5：圖片下采樣編碼

視頻幀內的下采樣，主要採用了分塊處理的方法，區別塊是否適合進行下采樣，以後對適合進行下采樣的塊進行下采樣操做，對於不適合進行下采樣的塊不執行下采樣操做。再完成這以步驟後，根據下采樣塊的狀況分別用 CNN 或 DCTIF 進行上採樣，來重建圖像，固然爲了更好的效果，亮度和色度通道也會根據須要採用不一樣的網絡架構。在這給你們推薦 Jiahao Li 等在 2018 年發表的 Fully Connected Network-Based Intra Prediction for Image Coding 的論文，論文裏有對下采樣方法更加詳細的介紹。

深度學習視頻壓縮的優點和劣勢

隨着傳統壓縮的瓶頸到來，深度學習圖像壓縮的優點被愈來愈多的企業和研究員看到。深度學習在視頻壓縮領域潛力更大。深度學習在視頻壓縮領域的主要優點在於：