摘要:得益於深度神經網絡提取信源特徵的能力,深度學習技術在信源壓縮編碼領域取得了比傳統方法更
本文分享自華爲雲社區《基於深度學習的圖像視頻壓縮編碼》,原文做者:羅鵬。html
得益於深度神經網絡提取信源特徵的能力,深度學習技術在信源壓縮編碼領域取得了比傳統方法更優異的效果。網絡
基於深度學習的圖像壓縮編碼
自編碼器
Ballé1 提出了一種基於變分自編碼器的端到端圖像壓縮模型,採用結合邊信息(side information)的超先驗的方案。
模型以下圖所示。架構
Q 表示量化;AE 和 AD 分別表示算術編碼和解碼;卷積參數表示爲層\times×長\times×寬/下采用或上採樣,\uparrow↑表示上採樣,\downarrow↓表示下采樣。框架
Minnen2 提出了一種超先驗結合自迴歸模型的方案。機器學習
循環神經網絡(Recurrent Neural Network, RNN)
Google3 團隊提出一種基於長短時間記憶(long short-term memory, LTSM)的神經網絡架構對圖像進行可變壓縮率的編碼方法。
模型以下圖所示。ide
上圖是基於卷積核逆卷積的殘差編碼器,將上下層各第二和第三的卷積/逆卷積模塊換成 LTSM 模塊即爲所提出的模型。學習
Google4 團隊在前面工做的基礎上引入了 GRU 和 ResNet 模塊,並採用熵編碼進一步提高了壓縮率。編碼
模型以下圖所示。url
生成對抗網絡(Generative Adversarial Network, GAN)
Agustsson5 提出了一種基於 GAN 的圖像壓縮方案,可選擇地對部分/所有圖像生成對應語義標籤;解碼時,正常壓縮的圖像部分正常解碼,無圖像部分由 GAN 網絡生成。
模型以下圖所示。spa
EE 爲編碼器;qq 爲量化器;GG 爲解碼和生成器;DD 爲對抗器。
基於深度學習的視頻壓縮編碼
基於深度學習的視頻編碼分爲兩種:
- 採用深度學習替代傳統視頻編碼中部分模塊
- 端到端採用深度學習編碼壓縮
部分方案
採樣深度神經網絡能夠替代傳統視頻編碼中的模塊包括:幀內/幀間預測、變換、上下采樣、環路濾波、熵編碼等6。
端到端方案
Lu7 提出了一個端到端採用深度學習進行視頻編碼壓縮的方案;其採用卷積光流估計來進行運動估計,並使用兩個自編碼器對光流信息和殘差信息進行編碼壓縮。
編碼框架以下圖所示:
採用一個卷積網絡模塊進行光流估計8,以做爲運動估計。
採用自編碼器對光流信息進行壓縮,自編碼器網絡以下圖所示:
結合上一幀圖像和光流信息,得到運動補償圖像。運動補償網絡以下圖所示:
將原圖像與補償圖像進行差計算得到殘差,殘差也使用自編碼器壓縮。
Rippel9 提出了一種端到端基於機器學習(包括深度學習)的視頻壓縮方案;採用多幀參考的光流估計作運動估計,採用自編碼器對光流信息和殘差編碼壓縮,採用機器學習作碼率控制。
Reference
- [2018 ICLR]
Variational image compression with a scale hyperprior - [2018 NIPS]
Joint Autoregressive and Hierarchical Priors for Learned Image Compression - [2016 ICLR]
Variable Rate Image Compression with Recurrent Neural Networks - [2017 CVPR]
Full Resolution Image Compression with Recurrent Neural Networks - [2019 ICCV]
Generative Adversarial Networks for Extreme Learned Image Compression - [2019 MM]
Deep Learning-Based Video Coding: A Review and A Case Study - [2019 CVPR]
DVC: An End-to-end Deep Video Compression Framework - [2017 CVPR]
Optical Flow Estimation using a Spatial Pyramid Network - [2019 ICCV]
Learned Video Compression