雷鋒網AI科技評論:html
隨着移動端屏幕分辨率愈來愈高,甚至像iPhone更有所謂的「視網膜屏」,人們對高清圖片的訴求也隨之愈來愈大。在QQ 、QQ空間、微博、微信等社交平臺,人們常樂於發送和瀏覽數兆的高清圖片,以得到更佳的視覺體驗。但這也給用戶形成了必定的困擾——要看高清大圖也就意味着要佔用大量帶寬,一來是數據成本增長,二來加載速度會變慢,致使用戶體驗不佳。在時間就是金錢的時代,怎麼能把這麼寶貴的時間用在等待loading上呢?算法
因此如何可以在不影響用戶體驗的狀況下,經過傳輸小圖來達到高清效果是一個很值得研究的問題。在去年10月,谷歌發表了一篇論文講述了他們推出的一項新技術RAISR(Rapid and Accurate Image Super-Resolution),利用機器學習將低分辨率圖像轉化爲高分辨率圖像。這項技術可以在節省帶寬75%的狀況下分辨率效果達到甚至超過原圖,同時速度可以提高大約10到100倍。因而很快RAISR成爲該領域的行業標杆。api
而近日騰訊QQ空間聯合優圖實驗室也推出的他們在此領域的最新技術TSR(Tencent Super Resolution)。據介紹,TSR技術在一樣的標準下,處理速度在RAISR的基礎上提高了40%,處理效果也有明顯提高。微信
此外,TSR也是業界首次實現移動端使用深度神經網絡進行超分辨率,並保證圖片可以實時進行處理。即便在用戶的普通Andriod手機,也可使用這項技術。網絡
超分模型結構圖以下:架構
首先,在深度卷積神經網絡這一塊,他們構建了一個10層的網絡。對比目前學術界研究的神經網絡,這個網絡可以很好的解決Checker Board Artifacts和對於部分圖片處理紋理不清晰的問題。經過神經網絡抽象出圖片的總體特殊,識別圖片的紋理和內容,隨後再根據圖片的紋理和內容進行圖片的高清細節重建,從而達到遠超過原圖的視覺效果。框架
經過控制卷積神經網絡的層數與每層的CHANEL數,在簡化總體計算量的狀況下,這個網絡能很好的解決圖片過於平滑,紋理不清晰的問題。經過精簡化的設計,TSR可以保證模型在只有4.6KB的基礎上有不錯的處理效果。iphone
在圖片預處理方面,TSR採用了二次插值方法對圖片進行預處理。這樣作能夠對比較模糊的UGC(用戶原創內容)圖片也能取得較好的效果。針對人眼對於顏色與亮度的敏感程度,他們對圖片採用CbCr與Y通道分離,只對Y通道數據進行超分處理的方法提升處理速度。機器學習
(注:YCbCr 是色彩空間的一種,一般會用於影片中的影像連續處理,或是數字攝影系統中。 Cb和Cr爲藍色和紅色的濃度偏移量成份,Y是所謂的流明(luminance),表示光的強度。)函數
此外,在模型中他們採用PRelu(Parametric Rectified Linear Unit)做爲激活函數,這樣能夠獲得更快的收斂速度與更好的網絡表達能力。
顧名思義爲帶參數的ReLU,兩者的定義和區別如圖
此外,他們採用了基於Adam(Adaptive Moment Estimation,自適應矩估計)的梯度降低法,來求解神經網絡模型的具體參數。
具體的模型訓練上,他們先採用1W張用戶真實圖片,而後經過調整圖片顏色、高度、對比度、施轉、左右反轉等數據加強操做,構造百萬級的訓練樣本集。而後採用壓縮的方法將訓練樣本圖片寬高各壓縮到原來的1/2,此時圖片的總體帶寬就只有原來的1/4了。
處理後的圖片通過前面介紹的超分模型處理後,再與原來的圖片的效果進行比較,根據對比效果進行調整模型參數。
與業界的訓練該方法不一樣,除了對比圖片的損失(PSNR)外,他們還同時引入了可視化評測系統,使用用戶的真實圖片進行可視化評測,用於優化參數。
TSR與學術界前沿超分辨率技術對好比下圖(NTIRE2017數據,400* 300 放大到 800 * 600,硬件環境:Titan XP workstation)。 能夠看到在處理速度與圖片效果上,TSR相比別家(包括谷歌的RAISR)都要更佳。
目前主流的深度神經網絡模型通常在後臺的高性能GPU機器上運行,這對機器性能要求比較高。TSR則爲基於手機端的深度學習架構。
TSR將深度學習從後臺遷移到移動端, 主要包括以下較爲關鍵的技術:
把圖片分紅不少小塊經過神經網絡進行處理。分塊加速技術的優勢在於可以充分使用CPU的多核特性進行多核並行計算。
在分塊的過程當中,同時還使用算法對圖片的紋理複雜度進行識別和智能處理來提升圖片的處理速率。以下圖示,經過智能識別能夠加速藍框中圖塊的處理過程。
可以根據用戶手機的GPU與CPU能力進行任務的智能劃分,聯合GPU/CPU進行處理以達到較好的處理效果。這樣的技術也許應該算是業界獨創了。
RapidNet深度融合了基於AND平臺的opencl GPU並行計算加速技術和基於IOS平臺的METAL 加速技術。對基於ARM結構的CPU,則可以充分利用neon SIMD技術和純程池技術。
據瞭解,相比於業界主流的機器學習平臺,速度提升10倍以上,內存消耗則下降95%。
保證了手機端的全覆蓋。TSR會動態探測手機的處理能力,針對不一樣手機實時加載不一樣的模型,從而可以保證全部性能的手機客戶端均可以使用這種技術,保證了手機端的全覆蓋。
TSR對圖片處理的效果(注:左邊是原圖,右邊是超分辨率處理的圖片)
TSR處理後效果對比:
細節對比:
TSR處理後效果對比:
細節對比:
TSR處理後效果對比:
細節對比:
TSR處理後效果對比:
細節對比:
用戶普通圖片壓縮75%再進行TSR處理後跟原圖進行對比效果:
在一樣處理標準下,TSR與RAISR的效果性能對比:
能夠看出不論是在處理速度,仍是處理效果上,TSR都要超過以前行業的標杆PARSR:處理速度在PARSR的基礎上提高40%,處理效果也有明顯提高。讓咱們用圖來看。
從上面對比圖能夠看出,對於圖片細節與紋理的處理,TSR相比RAISR在細節還原上表現更好。
其次,據介紹,TSR是目前業界惟一可以將基於深度學習的超分分辨率技術落地並應用到移動端的技術,即便在用戶的普通的手機上,也能夠很好的運行TSR並取得不錯的效果。
另外,基於TSR衍生出來的深度學習框架RapidNet,對比CAFFE2與TENSORFLOW框架,性能提高平均達到20倍,且可以把深度學習落地到普通手機。
這項技術的應用,如文章開頭所說,能夠應用到業界中全部的圖片處理上,可以給用戶節省75%的流量,從而大大下降圖片傳輸的帶寬。
對於騰訊來講,TSR目前已經在QQ空間進行落地應用,此外QQ、微信、每天P圖、動漫等應該也都是TSR技術的目標使用場景。
另外,據介紹,這項技術還可以用來智能修復用戶的老照片、模糊的圖片等,可以把普通圖片變成高清圖片。
固然或許最重要的是,TSR這項技術實際上是打開了移動端進行AI相關的深度機器學習模型的大門。由於以前要想運行深度神經網絡就必須採購昂貴的GPU,而如今即便是普通用戶也可以在本身的普通的手機上運行這項技術。若是延伸的話,也許TSR技術未來可以對人臉識別、OCR識別、背景識別、人物美妝等技術的發展有必定的幫助。
據介紹,隨着AI技術的興起,騰訊QQ空間也加大了在AI這一塊的投入,他們的聯合優圖實驗室在圖片的智能化處理(包括視頻內容識別、人臉識別)以及語音識別、對話機器人這些領域進行較爲深刻研究。
【相關】Google超分辨率論文RAISR實現小結 - 羽凌寒 - CSDN博客 https://blog.csdn.net/u011630458/article/details/69524582
【轉載自】
【參考文獻】
騰訊QQ空間超分辨率技術TSR:爲用戶節省3/4流量,處理效果和速度超谷歌RAISR | 雷鋒網 https://www.leiphone.com/news/201710/c0GICjRacVyzHKIM.html
TSR:基於深度學習的超分辨率技術及應用 - 雲+社區 - 騰訊雲 https://cloud.tencent.com/developer/article/1006272