閱讀筆記Underexposed Photo Enhancement using Deep Illumination Estimation

這篇文章作了啥?

圖像的加強,給定圖像比較暗,經過加強的操做來增長欠曝光的圖像的亮度。 和以往的圖像到圖像的生成不太同樣,這篇文章首先產生了三個亮度的通道,用這三個亮度的通道的逆去乘原圖像,獲得的最後加強以後的圖像 圖像加強是一個非線性的過程,儘管不少圖像處理軟件能夠對圖像進行加強,可是須要很是專業的能力。一些手機軟件提供了自動圖像加強的能力,可是這種能力對於弱曝光的圖像處理的並非特別好 最近的深度學習算法可以解決這個問題,可是他們解決這個問題的能力不是特別好,做者舉了如下幾個例子(說不清楚具體比別人好在哪裏的時候,舉例子以後再分析多是一個比較好的切入點) 算法

做者認爲的創新之處

做者提出了一個端到端的用於欠曝光圖像加強的網絡結構,相對於圖像到圖像的預測,這個網絡只image-to-illumination的預測,同時做者設計了基於不一樣illumination的約束和先驗的loss函數 做者搞了一個數據集合,有三千張欠曝光的圖像,而且做者請了一些專家進行修飾 做者再以前的和本身創建的數據集合上進行了實驗,實驗結果不管是定性仍是定量都比較好網絡

圖像加強模型

以下 其中$I$是未加強的圖片,$\tilde{I}$是加強以後的圖像,至關因而對正常曝光的圖。做者專門解釋了一下這個公式爲何work,做者說重要的優勢是,亮度圖比較簡單,並且其中還蘊含着先驗知識,若是輸出亮度圖的話,實際上網絡有很強的泛化能力來學到不一樣光照條件下的複雜的攝影調整。除此以外,經過對illumination map創建約束,模型也可以定製加強以後的結果。好比,經過約束illumination map的局部光滑,對比度能夠獲得加強,或者 經過約束亮度圖的幅度,能夠調整加強以後的結果函數

網絡結構

網絡結構和pipline以下 做者並無着重說他們的網絡結構,只是說了網絡結構包含一個local和一個global的模塊,可以獲取不一樣尺度的信息,而後由於輸出尺寸的比較小,因此可以保證效率的問題學習

loss函數

loss函數如上,一共包含了三項loss,一個是重建的loss,就是直接比較兩幅圖像的接近程度 另一個是smooth loss,就是爲了對輸出的亮度圖進行一個光滑,這是基於兩篇文章提出來的理論,表述的是亮度應該是局部光滑(locally smooth)的。 做者說這個smooth loss有兩個優勢,第一個是能夠減小過擬合和增長網絡的泛化能力;第二個優勢是它能夠增長圖像的對比度。 做者舉了一個例子,好比p和q有類似的亮度的話,那麼通過s變換以後,這個在亮度圖上的差別應該會被放大 因此,須要對這個亮度圖進行約束,做者提出的smooth loss以下 其中, 大體的意思是,若是原圖的某個pixel比較smooth的話,那麼這一項的loss的係數就會很大,若是原圖的某個pixel很sharp的話,那麼它對應的亮度圖對應的像素的係數會很小。就是若是原圖很smooth的話,獲得的亮度圖應該也是smooth的,若是原圖是sharp的話,那麼對應的亮度圖也應該是sharp的。做者還說道,對於曝光不足的圖片,圖像內容和細節一般較弱,照明不一致會致使大的梯度。 同時做者還考慮到了color loss,就是計算對應pixel(RGB三通道表示的三維向量)的餘弦距離,做者說L2 norm只可以測量兩個向量之間的距離,不可以保證他們的方向是一致的,不可以保證color vector有一致的方向,因此L2度量方式可能致使明顯的color mismatch。 我感受這個地方考慮的是角度類似性的問題,好比預測獲得的rgb三個通道的向量若是隻是和原圖的rgb相差一個scale的話,那麼應該餘弦距離是爲0的,可是隻差一個scale就是隻差一個亮度,這種作法可以保證優化的方向是一致的,至於具體的距離能夠交給L2norm測試

數據集合的創建

在此以前做者提到了另一個圖像加強的數據集合,叫作MIT-Adobe FiveK dataset,可是這個數據集合有一個缺點就是它只用來作普通的圖片的數據加強而不是欠曝光的圖像的數據加強 因此做者準備作的這個問題,以前沒有過相似的數據集合,做者用EOS 5D相機來拍攝圖片,同時,在Flicker這個網站上也收集了大約15%的圖片,搜索的關鍵詞欠曝光,低光,或者backit等關鍵詞。而後做者說他們僱傭了3個專家來用adobe的lightroom調整圖像,用調整以後的圖像做爲gt進行訓練。做者的數據集合包含各類各樣的場景,包含了各類各樣的亮度。總的來說,做者的3000張圖片中,有2750張圖片用來作訓練,250張圖片用來作測試。值得注意的是,做者如今尚未公開訓練數據,只公開了測試數據。優化

試驗step

ablation study

同時做者還在FiveK數據集合上進行了評估,選取了expertC的結果,用4500張進行訓練,用測評標準仍是SSIM和PSNR。 做者寫文章的手法仍是值得借鑑的,好比在提出每一個loss的時候,會經過實驗結果說明每一個loss的做用,而不是在說起的時候先闡述一下原理,而後經過實驗結果佐證以前的假設;感受這能夠做爲寫文章的一個手法。 先看一下各個loss的做用,以下圖 看上圖的第二列和第三列,做者想表達的意思是,相對於直接輸出的圖像,經過輸出illumination map的話,能夠恢復更多的細節,可是可能不具有比較合理的對比效果或者生動的色彩,因此做者引出了smooth loss。經過對比第三列和第四列,能夠發現smooth loss能夠增長圖像的對度。經過對比第四列和第五列,能夠發現顏色並無mismatch。大概就是顏色並無失真的這個意思吧。網站

和sota方法比較

做者列舉了幾種sota的方法,以下圖 分別在做者提出的和FiveK數據集合上進行了比較,做者說,相對於其餘的方法,做者的方法不管在前景或者是背景上,都可以恢復圖像的更多的細節和對比度,而不用犧牲一些圖像中過曝光的區域。第二個優勢就是做者加強以後的圖片顯得更加的有生機,以及更加的realistic。 同時,做者在兩個數據集合上都作了量化評估,以下表 在user study上,做者又從新在flicker上下載了500張圖片,來直接用網絡進行預測,而且獲得了一個實驗結果,以下圖,這種更加細緻的user study其實能夠作一個參考寫東西的方向 做者一共問了6個問題。好比是否vivid,相對於輸入是不是更加的吸引人等。spa

結論和討論

做者說他們的網絡也有一些侷限性,好比在很是暗的環境下並不能恢復出來detail,我感受emm由於訓練數據不夠用唄~ 還有就是去噪能力不夠,感受訓練數據都是很是clean的,除了暗以外,因此這裏的shortcoming,感受意義不是特別大 設計

鄙人總結和展望

在結果上如此好,一個是得益於直接輸出的是亮度圖,另一個大概就是做者提出的三個loss,和其餘的方法比較,沒有比較網絡參數,這個可能也是一個漲點的緣由 做者是第一個作低光圖像加強的,以前的網絡沒有被設計的專門follow這一部分?maybe 可否作一個通用的曝光加強的網絡,個人意思是,能夠有不一樣level的亮度,網絡都可以輸出比較好的試驗結果,這個通用的模型是必須的,能夠參考一下卷積神經網絡裏面的attention結構模塊,可以attention不一樣的亮度信息,以及不一樣的noise程度等等 是否能夠在raw上進行無監督的圖像生成,由於考慮到了採集圖像,而且經過isp後期調整以後的困難?orm

相關文章
相關標籤/搜索