科研之路(2):分析學習別人的科研歷程

2018-06-12
html

萬事開頭難,面對科研,找不到入手點,最後看似忙忙碌碌,實則無所事事,我想這是一件很痛苦的事情吧。git

師兄說要先有一篇有主題結構內容的論文,按部就班最終結果可能會更好些,要否則高不成低不就本身痛苦。github

總歸是要痛苦一陣子的,因此我想接下來分析記錄一下南開大學程明明老師關於科研的心路歷程,主要目的是但願對本身有所啓發,這是他的原文連接:http://mmcheng.net/zh/paperreading/!!!既然尚不明朗,研究課題又和程老師團隊目前的工做相吻合,就先順着他們的路,追蹤學習下去吧(關於這一點,我已經很慶幸了,畢竟不是全部的人都能遇到,相遇已實屬不易),慢慢走出一條本身的路。web

很是感謝程老師的分享精神,一篇分享,可能就影響甚至指引了像我同樣成千上萬的後來者,感恩分享!算法

如下是程老師所說的他在科研中所遇到的「經驗教訓」^_^數據庫

一如程老師所說,他所遇到的困惑:如何閱讀文獻,如何尋找科研題目編程

1. 機遇與挑戰api

機遇與挑戰老是並存的。網絡

就閱讀論文和尋找新的題目而言,幾乎在任什麼時候刻,若是咱們去閱讀以前的論文,都會以爲幾乎每一個學科都發展到必定程度(有無數的重要工做以致於想通讀一遍都很困難),容易作的都被人作光了,剩下了一堆難啃的硬骨頭。可是當咱們從某個時間點日後看,又老是有太多的工做讓人以爲異常興奮,振奮之餘又陷入了那個問題,貌似僅剩的容易工做又被人作了。只恨本身比別人晚出生幾年。要是真的可以早生幾年,咱們就可以作出哪些工做嗎?我想若是抱着這種心態,這種假設大概只會一直回退到遠古時期,回退到那個你們都在爲食物而拼命的年代。(這種正確的心態很重要app

與其抱怨已有工做浩如煙海,無從入手,感嘆咱們怎麼會不幸的出生在一個「科技發展的後噴發時代」 ,不如認真的換個更加客觀的角度從新思考問題。假如咱們是一個計算機處理器設計行業的新從業者,當咱們剛進入這個行業的頂級公司,看到無數的已有工做和成績,咱們極可能也會發出相似上述狀況的感慨。可是,身爲一個外行,和無數的外行同樣,我很是有信心 ,計算機的處理能力在將來不少不少年還會繼續快速增加,比這個世界上幾乎全部其餘行業都要快的速度繼續增加。全部的局外人都明白其中所蘊含的機遇。對於咱們所從事的領域,不少時候咱們的迷茫,咱們的「不識廬山真面目」,都只源於咱們「身在廬山中」。

在從事這些領域的過程當中,我(「我」均以程明明老師爲第一人稱也曾經經歷了迷茫、失望、探索、發現、振奮的各個階段。雖然迷茫和失望在時間跨度上佔了我短短几年科研經歷的明顯多數,但如今更多的是信心和對將來的憧憬。 當咱們擺脫以前的悲觀情緒以後,一個現實的問題是,如何尋找這些機遇如何從海量的文獻中找出適合咱們的科研題目?關於這一點,我想從本身比較熟悉的幾個領域出發 ,用具體的實例來總結個人一些經驗和教訓。

下面主要經過時間順序,分析一些領域的一些表明性工做如何一個接一個涌現出來的,是什麼基礎啓發了這些工做?這些想法如何轉化爲實際的成果?

不妨假設咱們曾經的「當事人」。若是可以順着這幾條脈絡走下去,在每一個論文出來以後,想想若是我是當時從事這些工做的人,我會從以前的工做中獲得什麼啓發 ?我會如何開展下一步研究

對於低年級的新手,開始的時候這種鍛鍊會很是辛苦。最初的「啓發」極可能是「又一個軟柿子被人捏過了」,「貌似能作的都已經被作了」,「貌似只剩難啃的硬骨頭了」,「這傢伙從事科研的時間點怎麼這麼幸運」。咱們能夠想一想若是是本身,站在當時那個位置,會作什麼後續工做

確實充分的思考完一個工做以後,咱們能夠看一看下一個同領域的重要工做。若是你發現本身不少時候能夠「預測」這些發展了,那麼很是恭喜你,這篇小總結可能對你沒太大用處了。若是咱們又一次陷入那個以爲只恨又一個容易作的工做被別人作掉了的怪圈,那麼仍是再認真鍛鍊仔細琢磨這些新的工做是怎麼一個接一個在類似的topic上層出不窮的。

注:如下主要分析一些引用數特別高的論文。每個引用一般意味着有人受到這篇論文的啓發,作了一些新的工做,而且發表了相關的論文。無數的論文中,閱讀這種論文一般「性價比」更高一些。

2. 系列工做分析之Saliency Detection

2.1 [98PAMI]: A model of saliency-based visual attention for rapid scene analysis(一種基於顯著性視覺注意力的快速場景分析模型) (Matlab, 9000+ citations)

這篇論文雖然只是個short paper,可是在這個領域有着不可磨滅的絕對重要性

最大的貢獻在於將Visual attention的問題用計算模型表達出來並展現出來這個問題能夠在必定程度上獲得有意義的結果。其中提到的Center-Surround difference在後續的不少工做中都被以不一樣的形式表現出來。除了生成saliency map (後續的不少方法只生成saliency map),這篇文章也探討了注視點的轉移機制

總之,說這篇論文是saliency Detection computation的開山之做也不爲過,此文對後續工做有着深入的影響。體現了最牛的一種創新境界提出新問題」。

建議在繼續閱讀別的論文以前,先仔細讀一下這篇只有區區6頁的短文,想一想還有什麼可作的嗎? 我第一次讀完這篇論文以後,第一感受是:i) 這篇論文對該考慮的問題都考慮到了,應該沒有太多能夠接着作的了, ii) 這麼簡單的東西怎麼就沒輪到我去發現,那個時候的人太幸福了,這麼簡單的想法也能夠發IEEE TPAMI。固然,這些初始的想法是小菜鳥最多見的想法。

再繼續往下讀以前,不妨使勁去想到底有多少種可能能夠擴展。我想,在沒有閱讀後續論文的條件下,常人能想到的擴展不會超過兩三種,可謂少的可憐。可是,要是你點擊一下Google Scholar的連接,那5000+的citation中,有一半以上都是接着作saliency detection的!也就是說有2000+種可能能夠接着作,而且成功的發表了論文,其中不乏優秀論文。

再日後讀這個系列中的別的論文,你會發現,idea越作越多,而非越作越少。等讀到最後一個的時候,你一般會發現本身輕易就能想出幾十種可能發表新論文的想法。

2.2 [07CVPR]: Saliency detection: A spectral residual approach, (Matlab, 2600+ citations)

這篇論文做者一開始就說得很明白,是與特徵、類別或者其餘形式的先驗知識無關的,他用到的工具是隻要學過信號處理的人都會學到的傅里葉變換,大概說來是基於頻譜的log函數,提取圖像在頻率域的殘餘,而後提出一種圖像顯著性檢測的方法。

在1998年PAMI的論文發表以後到這篇論文以前(相隔9年的時間)其實有不少作saliency detection的文章。這裏不一一介紹了,由於太多了,以致於不少我本身也沒看。我直接跳到這篇頗有「性價比」的論文。之因此這篇論文影響力很大,一個重要的緣由簡單,出奇的簡單!這篇論文一共5行matlab代碼,比通常論文abstract中的字符還少,做者直接貼到論文中了。5行代碼的方法,不用花太多時間就能看完。

特別簡單的方法一般意味着有無數種方案能夠改進。最直接最容易想到的創新莫過於「組合創新」。有興趣看這些改進的讀者能夠經過Google Scholar查看引用這個論文的其它論文。仍是繼續上面的風格,我每次都跳到下一個頗有「性價比」的工做(也就是簡單可擴展的工做)。

2.3 [07CVPR]: Learning to detect a salient object, (Dataset, 1800+ citations)

這篇論文最大的貢獻就是將saliency detection從以fixation prediction(固定預測)佔絕對統治地位的時代,引導到了以salient object detection爲主的時代,對該領域貢獻很是大。此外,這篇文章貢獻了一個含有2萬個圖片的數據集MSRA數據集,並給出了Bounding Box級的標註。這篇文章的主要不足之處是沒開源(固然那個年代大部分文章都不開源)致使重現比較麻煩。此外,Bounding Box級別的標註精度不能知足不少應用需求

2.4 [09CVPR]: Frequency-tuned salient region detection, (C++, 2400+ citations)

一篇2009年的工做,能在短期內,受到如此關注,實數罕見。該文一樣具備幾乎全部高引用論文的重要特徵:簡單!比上面的CVPR 2007的那個還簡單。你能夠寫一個2行的matlab代碼就搞定。代碼字符數能夠比不少論文的題目字符數還少。

這種論文容易擴展的特色是毋庸置疑的。若是能發表在高水平的會議期刊上,這種論文會有很大的影響力。問題在於,若是是咱們當年想到了這個方法,怎麼sell這個方法,讓他可以被你們所承認。看了方法的人都會感嘆,這樣也行?!!

這篇論文之因此被你們承認,特別是被CVPR的review承認,很大緣由在於做者看到了一個機遇「The true usefulness of a saliency map is determined by the application」。以前的不少saliency detection方法都在follow 98年pami那篇試圖去預測注視點

Saliency的機制很重要,可是不少的應用須要知道整個saliency物體的區域(例如圖像中一匹馬對應的全部像素),而不是這個物體上的若干個點(例如馬的眼睛)。這篇文章以後,不少工做的評價標準就從傳統的對注視點預測的評價,轉移到對物體區域二值圖的預測上了。從某種意義上講,這篇文章對Saliency detection的問題作了從新的定義,讓問題定義更加回歸實際應用

這篇文章的方法之因此能在一個當時最大的數據集(1000個image的binary segmentation)上作到比其它方法好的結果,很大的緣由在於,別的方法不是針對這種評價體系設計的。在新的評價體系下,用圖像中每一個像素顏色值,和圖像的平均顏色值,在三維彩色空間中的距離,做爲saliency value,就能獲得比以前方法「更好」的結果。這個工做的最大特色是重新的角度提出問題,怎麼formulate都是次要的,不用太糾結於此(後來咱們也利用關鍵詞搜索獲得了不少圖像,並標註了2個更大數量級的數據庫:https://mmcheng.net/zh/code-data/)。後來無數種方法都在他們的數據庫上取得了更好的結果。

2.5 [10CVPR]: Context-aware saliency detection, (Matlab, 1600+ citations)

雖然「組合創新」有時候容易被認爲是minor improvement,可是若是論文寫得好,實驗作得充分,也能夠作出具備影響力的工做。並且貌似大部分論文都是組合創新這篇CVPR 2010的工做就是Saliency detection中「組合創新」的一個典型。聽到組合創新這個詞,你們或許就能對這個paper的總體結構有個猜想。其實就是把face detetion, pixel level saliency map,region level saliency map簡單組合起來。

2.6 [11CVPR](15PAMI): Global Contrast based Salient Region Detection, (C++, 2100+ citations)

能夠說1998年的PAMI和2007年的CVPR是我2007剛開始接觸科研時就看過的paper。當時看了只有佩服和震撼,感受能作的都作了,貌似沒我什麼機會。上面提到,我是在圖形學組讀博的,主要關注的是CV方法的應用。2009年春季學期的時候,咱們組加上外面訪問的學生,一共有10個project,後來這些project中了一篇ACM TOG和6篇Pacific Graphics(全部論文收錄圖形學中影響因子第三高的期刊CGF,第一是ACM TOG,第二是IEEE TVCG)。這些應用經驗,讓我內心比較清楚那種saliency map是我更須要的。可是根深蒂固的偏見(看了以前fixation point prediction系列paper以後以爲saliency map就該長的像那些paper中那樣),讓我即便在擁有如此多應用經驗的狀況下,依然沒能及時意識到,要想在實際應用中發揮更大的做用,這個問題的定義方法和evaluate方法應該改!(這段話挺有啓發的,換個角度看問題,打破侷限很重要!)

2010年6月份的時候,一個偶然的機會,我看到了CVPR 2009的論文。如今還記得是某一天中午十一點多的時候看到的,論文粗看了一下,就到了吃飯點,和同窗去食堂吃飯了。整個吃飯過程各類不淡定,內心那叫一個激動呀。由於我知道更多的saliency detection應用確實須要這樣的問題定義和評價標準。而做者在論文中用到的方法,其實只是一個適用這種應用需求的最最簡單的方法。這種簡單的方法太容易被超越了!激動事後,趕忙吃完午餐,回到實驗室驗證我吃飯時內心想到的幾個可能的改進。那天下午,我花了不到1個小時的時間,就獲得了比CVPR 2009論文中方法明顯好的結果(就是我CVPR11年論文中的HC方法)。不久以後,獲得了一些老師和同窗的反饋,進而提出了論文中的RC方法,和SaliencyCut方法(值得注意的是,雖然不少後續方法號稱獲得了更好的Saliency map,可是我一直沒看到更好的根據這些Saliency map獲得的segmentation結果,可能跟咱們堅持不在Journal版本錄用以前放出SaliencyCut部分代碼有關係吧)。

2.7 [12CVPR]: Saliency Filters: Contrast Based Filtering for Salient Region Detection, (C++, 800+ citations)

這篇文章從一個很是新穎的角度去看待顯著性檢測的問題,把顯著性檢測問題,特別是全局對比度計算問題,轉換爲一個高維的高斯濾波問題。進而使用了一個新出現的「神器」進行求解。這個「神器」就是Eurographics 2010的Best paper runner up 「Fast High-Dimensional Filtering Using the Permutohedral Lattice」。

之因此稱之爲神器,是由於這個技術成就了一批具備很高影響力的論文。將這種快速高斯濾波應用到Conditional Random Field (CRF)領域,一會兒就讓這個領域內兩大主流方法之一的mean mield解法打了一個翻身仗。

以前你們提到CRF, 就很容易提到2類解法,graph cut和mean field,而後就來一句因爲計算效率問題,咱們選擇基於graph cut的解法…。有了上述神器,Philipp Krähenbühl等人先是展現了Mean field的快速解法(在全連通CRF狀況下把之前須要36個小時計算還沒最終收斂的算法,直接0.2秒解掉)。

這個神器在crf裏面的應用,也一舉摘得了NIPS 2011的best paper award。小試牛刀以後,Philipp Krähenbühl等人又在CVPR 2012刷了一把saliency,並在ECCV 2012刷了一把optical flow。這個神器。就連如今語義分割類Deep Learning方法中的crf layer,也採用這個神器來加速(例如著名的DeepLab:http://liangchiehchen.com/projects/DeepLab.html)。我本身也在Pacific Graphics 2015上,利用這個神器作了一個DenseCut:https://mmcheng.net/zh/densecut/的工做。

2.8 [13ICCV]: Efficient Salient Region Detection with Soft Image Abstraction (C++, 300+ citations)

受到Saliency Filter的啓發,我結合本身CVPR 11年Global contrast那篇論文中用到的Color quantization和Gaussion Mixture Model的已有工做完成了這個工做。這個工做如今令我最印象深入的是一個字「快」。一方面是算法快,cpu版本就能每秒處理90個image。另外一方面是編程快,deadline前2周注意到saliency filter這篇文章後想到的,當天下午就寫完程序(在本身已有工做基礎上新的程序很短)並在當天晚上完成了paper裏面的所有實驗。

2.9 [17IJCV] (13CVPR): Salient object detection: A discriminative regional feature integration approach, (C++project, 490+ citations)

這個工做差很少能夠認爲是顯著性物體檢測領域Deep learning時代到來前的最後一個高潮。在此以前的幾年裏,包括上述的幾個工做,雖然每一年CVPR等頂會上都會出幾個工做刷刷performance,可是絕大部分工做有點過於「拍腦殼」想出來的,讓這個領域裏的主流工做背離了機器學習的大背景。

如何將影響salient object detection的上述常見因素,以一種principled的方法利用起來,特別是利用機器學習領域的正規方式對不一樣特徵進行集成,就是這個paper的核心idea。具體實現的話,就是作了不少feature,而後用Random Forest用principled的方法學習如何組合這些feature。咱們在下面立刻要介紹的2015年IEEE TIP論文中對當時主流的方法作了一個benchmark,DRFI在各個數據集中都排名第一。

2.10 [15TIP]: Salient object detection: A benchmark, (C++ & Matlab, 650+ citations)

在2014-2015年這段時間,咱們對顯著性物體檢測這個領域的研究作了一個總結和比較性評測,對方法的演化特別是全部方法在一個統一的評價體系下的綜合表現進行了對比性實驗,討論了各類方法的優缺點,並探討了這個領域可能的發展方向等。因爲這個時間點恰好處在顯著性物體檢測領域從傳統方法過渡到深度學習方法的交接點,所以這篇文章中對幾乎全部主流的非深度學習方法作了全面的總結。一些在這個數據集上表現較好的方法,如:DRFI,DSR,QCUT,RC等方法,就逐漸沉澱爲非深度學習的顯著性物體檢測方法的表明。

2.11 [15IJCV]: Supercnn: A superpixelwise convolutional neural network for salient object detection (code, 40+ citations)

這是深度學習類的顯著性物體檢測的早期表明性工做。這塊的發展脈絡和第三節Edge Detection系列的發展脈絡極其類似。說明到必定時候,英雄所見略同。因爲我先寫Edge detection那部分,再寫的基於深度學習的顯著性物體檢測部分,這部分就不打算像Edge detection那塊同樣把發展寫的那麼細了。感興趣的讀者能夠參考咱們CVPR 2017年DSS論文中的相關工做進行梳理,若是在梳理過程當中和這篇文章第3節中的Edge detection系列對比着看,你回發現Idea層面驚人的類似之處。同edge detection領域剛過渡到深度學習系列方法初期類似,早期的深度學習也是從super-pixel層面提取特徵並直接判斷目標(saliency/edge)值的。開始使用新的殺手級工具時,每每單刀直入就能夠取得比較好的進步了。

2.12 [15CVPR] Saliency detection by multi-context deep learning(code, 200+ citations)

這篇文章除了有super-pixel level的local context以外,也加入CNN最擅長的對Global context的建模。除了直接應用CNN提取super-pixel特徵並預測顯著性值,CNN自身獲取全局信息的優點也獲得必定程度的發揮。

2.14 [17CVPR] Deeply Supervised Salient Object Detection with Short Connections (code, 19 citations)

在作這個工做以前,咱們注意到了edge detection, semantic segmentation, salient object detection幾個領域的一些共性最新的趨勢

1) 從局部分析逐漸過渡End-to-End的全局(Holisticly)分析

2) 相似於15年Marr獎Runner up論文(Holistically-Nested Edge Detection, 簡稱HED)中的skip layer結構對高質量的輸出頗有幫助;

3) 顯式的讓高層語義信息去指導和幫助低層語義信息更好的定位顯著性物體位置的同時精確的肯定其範圍頗有幫助。

所以,咱們在HED的基礎上,增長了一種高層信息指導低層信息的Skip Layer結構,從而構建了一種簡單,有效,快速的End-to-End的顯著性物體檢測網絡結構。

方法很簡單,你們能夠經過咱們的論文和代碼進一步瞭解細節。這裏跟你們分享一些論文裏沒有的東西:

咱們對於顯著性物體檢測技術的研究已經持續不少年了。除了常見科研選題的技巧(如利用類似領域的知識、提出新的問題、利用新的工具等)以外,支持咱們一路走來還有一個更重要的動力。任何一個研究領域蓬勃發展,都不是由於要發表paper,也不是由於研究生要畢業,更不是由於科研人員想自嗨。這種蓬勃發展須要一股強大的潛在動力:Killer App

在作顯著性物體檢測算法的過程當中,這些年我也一直持續在作Salient object detection的下游應用。正是對這些下游應用比通常視覺領域裏作salient object detection更精準的把握,才讓咱們更容易清楚地把握一個好的salient object detection算法最缺什麼元素。建議各位關注顯著性物體檢測算法的朋友,也關注一下相關的應用,必定可以受益很多。


圖1:DSS方法(CVPR17)用於智能拍照,並在華爲Mate 10慕尼黑髮佈會和榮耀V10發佈會上重點介紹。背後的一些故事和經歷在一個報道採訪http://news.nankai.edu.cn/nkyw/system/2017/12/24/000362595.shtml中我給予了詳細介紹。圖2: 利用顯著性物體檢測技術自動爲深度學習算法生成訓練數據。17PAMI: STC  https://weiyc.github.io/assets/projects/stc.html圖3: 用顯著性物體檢測技術分析圖像中的結構信息,並用於圖像檢索、合成、和互聯網圖像分析。這個工做的詳情請參考Sketch2Photo項目https://mmcheng.net/zh/sketch2photo/。圖4: 內容敏感的圖像縮放也是一個研究很普遍的領域。高質量的結果須要對顯著性物體的魯棒定位。詳見:ImageResizing項目https://mmcheng.net/zh/imageresizing/。

2.15 [14arXiv]: Salient Object Detection: A survey. (pdf, 150+ citations)

這個工做初版放在arXiv上以後,咱們進行了持續的更新。最新一版也包含了對上述工做的更詳細的總結。

3. 系列工做分析之Edge Detection

邊緣檢測在計算機視覺的不少領域中都有很是重要的應用。圖像邊緣檢測可以大幅減小數據量,在保留重要結構屬性的同時,剔除弱相關信息。

在深度學習火起來以前,傳統的Sobel、Prewitt、Laplacian等濾波器,Canny檢測器具備普遍的應用,這些檢測器只考慮到圖像局部的急劇變化,特別是顏色、亮度等的急劇變化,經過這些特徵來找邊緣。可是這些特徵很難模擬較爲複雜的場景,例如在伯克利的分割數據集(Berkeley Segmentation Dataset, BSD500),僅經過亮度、顏色變化並不足以把邊緣檢測作好。

後來,開始有人使用數據驅動的方法來學習怎樣聯合顏色、亮度、梯度這些特徵來作邊緣檢測,而且產生了一些流行的方法,好比Pb, gPb, Sketch Tokens, Structured Edge。

可是在不少場景下,僅憑顏色、亮度、梯度等low-level特徵很難作到魯棒的檢測,咱們須要用一些high-level 好比 object-level的信息纔可以把中間的細節紋理去掉,使其更加符合人的認知過程(舉個形象的例子,就好像畫家在畫這個物體的時候,更傾向於只畫外面這些輪廓,而把裏面的細節給忽略掉)。

傳統的基於手工設計特徵的方法,最好的結果只有0.7(用正確率和召回率的調和均值F-Measure來度量,BSD500數據集上多我的工標註者之間的F-Measure=0.8),這很大程度上是由於傳統的人工設計的特徵並無包含高層的物體級別信息,致使有不少的誤檢於是研究者們嘗試用卷積神經網絡CNN,探索是否能夠經過內嵌不少高層的、多尺度的信息來解決這一問題。近幾年,有不少基於CNN的方法的工做。這裏從2014 ACCV N4-Fields開始提及。

3.1 [14ACCV]: N4-Fields: Neural network nearest neighbor fields for image transforms (80+ citations)

如何從一張圖片裏面找邊緣?順着傳統方法局部鄰域計算的思路咱們會想到計算局部梯度的大小、紋理變化等這些直觀的方法。其實N4-Fields這個方法也很直觀,圖像有不少的patch,用卷積神經網絡(CNN)算出每一個patch的特徵,而後在字典裏面進行檢索,查找與其類似的邊緣,把這些類似的邊緣信息集成起來,就成了最終的結果,能夠看到,因爲特徵更增強大了,結果有了較好的提高。

3.2 [15CVPR]: DeepEdge: A multi-scale bifurcated deep network for top-down contour detection (100+ citations)

發表在CVPR 2015的DeepEdge對上述工做進行了擴展,首先使用Canny edge獲得候選輪廓點,而後對這些點創建不一樣尺度的patch,將這些 patch 輸入兩路的CNN,一路用做分類,一路用做迴歸。最後獲得每一個候選輪廓點的機率。

3.3 [15CVPR]: Deepcontour: A deep convolutional feature learned by positive-sharing loss for contour detection (代碼, 100+ citations)

這是CVPR2015中的另外一個工做,該工做仍是基於patch的。首先在圖像中尋找patch,而後對patch 作多類形狀分類,來判斷這個邊緣是屬於哪一類的邊緣,最後把不一樣類別的邊緣融合起來獲得最終的結果。這篇論文算是對2014年的N4-Fields的一個擴展,對training數據中patch的edge類型進行聚類,而後設計了更強大的網絡判斷某個patch的edge屬於哪個類別。

3.4 [15ICCV]: High-for-low and low-for-high: Efficient boundary detection from deep object features and its applications to high-level vision (代碼, 40+ citations)

ICCV 2015的工做High-for-Low (HFL)也用CNN對可能的候選輪廓點進行判斷。做者使用了通過高層語義信息訓練獲得的VGG Net,在必定程度上用到了高層語義信息;使用更精確的Structured Edge來生成候選輪廓點;所以取得了不錯的結果。此外,和DeepEdge須要對每一個候選輪廓點對應的patch都作CNN前饋不一樣,HFL只需對整幅圖像作一次CNN前饋,這大大減少了計算量,處理一張圖片所需的時間從1000秒減少到0.83秒。從這個意義上來講,DeepEdge的想法和R-CNN相似,而HFL的想法和Fast R-CNN相似,我想做者也是受了R-CNN和Fast R-CNN的啓發分別作出了這兩篇論文,這說明咱們平時作研究的idea不只能夠從正在作的task上去找,也能夠從其餘的task上去想。

這些工做雖然取得了一些進展,可是離人類的表現還有很大的差距。 這些方法的缺點在於大部分方法都是基於局部策略所作的結果,每次只看一個區域,即只針對一個patch,並無很充分的利用高層級的信息。HFL使用了全局的卷積特徵,因此結果比以前有了較大的提升;可是它依賴Structured Edge產生的候選輪廓點,不能實現總體的end-to-end的訓練。

3.5 [15ICCV]: Holistically-nested edge detection (代碼, 300+ citations)

HED 是屠卓文教授課題組在ICCV 2015  Marr Price提名的工做。該工做最大的亮點在於,一改以前邊緣檢測方法基於局部策略的方式,而是採用全局的圖像到圖像的處理方式即再也不針對一個個patch進行操做,而是對整幅圖像進行操做,爲高層級信息的獲取提供了便利。與此同時,該方法使用了multi-scale 和multi-level, 經過groundtruth的映射在卷積層側邊插入一個side output layer,在side output layer上進行deep supervision,將最終的結果和不一樣的層鏈接起來。加上deep supervision後,該方法能夠在不一樣尺度獲得對應抽象程度的邊緣。該方法在伯克利分割Benchmark上的結果較以前有了很大的提高。HED在論文中詳細對比了語義分割中著名的FCN算法,我推測做者是從FCN開始嘗試的,將不一樣尺度上的side output進行融合,最後又加上了deep supervision,使得結果有了較大的提高。

3.6 [17CVPR]: Richer Convolutional Features for Edge Detection (代碼)

RCF是咱們課題組CVPR2017的工做。其實想法很簡單,一句話就能歸納,因爲不一樣卷積層之間的信息是能夠互補的,傳統方法的問題在於信息利用不充分,至關於只使用了Pooling前最後一個卷積層的信息,若是咱們使用全部卷積層的信息是否是可以更好的利用卷積特徵,進而獲得更好的結果?使用全部卷積層的信息,而不是池化以前的最後一層,這樣一個很是簡單的改變,使得檢測結果有了很大的改善。這種方法也有望遷移到其餘領域。實驗結果代表,雖然卷積神經網絡自帶多尺度特徵,但顯式地使用多尺度融合對邊緣檢測結果的提高依然有效。該方法操做簡單,且不明顯增長計算時間,雖然代碼量少,但在BSDS500數據集上的結果甚至超過人類標註者的平均表現水平,並且可以達到實時檢測速度(30fps)。RCF是第一個實時的而且精度超過BSD500數據集上人類標註水平的邊緣檢測算法。

圖5: 各類邊緣檢測算法在BSDS500數據集上的評測結果 (畫圖所用的代碼、數據和相關說明已經公開在這裏https://github.com/yun-liu/plot-edge-pr-curves)

4. 系列工做分析之Content Aware Image Resizing

07SIGGRAPH: Seam carving for content-aware image resizing, (800+ citations)

08SIGGRAPH: Improved seam carving for video retargeting, (400+ citations)

08SIGGRAPH Asia: Optimized scale-and-stretch for image resizing, (300+ citations)

08PG: Shrinkability Maps for Content‐Aware Video Resizing (70+ citations)

09PG: A Shape‐Preserving Approach to Image Resizing (C++ code, 90+ citations)

13SIGGRAPH: Rectangling Panoramic Images via Warping

13ICCV: Content-Aware Rotation

5. 系列工做分析之Object Level Image Editing

07SIGGRAPH: Photo Clip Art, (150+ citations)

09SIGGRAPH Asia: Sketch2Photo: internet image montage, (180+ citations)

12SIGGRAPH: Interactive images: cuboid proxies for smart image manipulation, (20+ citations)

14TOG: ImageSpirit: Verbal Guided Image Parsing, (Project page)

6. 系列工做分析之Objectness proposals

10CVPR: What is an object? (Matlab code, 200+ citations), journal version published in IEEE TPAMI 2012

10ECCV: Category Independent Object Proposals (100+ citations), journal version published in IEEE TPAMI 2014.

11CVPR: Proposal Generation for Object Detection using Cascaded Ranking SVMs (10+ citations)

11ICCV: Segmentation as selective search for object recognition, (C++ code, 60+ citations), journal version published in IJCV 2013.

14CVPR:  BING: Binarized Normed Gradients for Objectness Estimation at 300fps, (C++ code)

7. 一些顯而易見的趨勢和機遇

Objectness,

Learning with 3D information

 

最後,請用心看:獻給迷茫的你和我

相關文章
相關標籤/搜索