CVPR 2018第一天:精彩的Workshop與被中國團隊進擊的挑戰賽

機器之心原創,做者:Tony Peng。php

美國時間 6 月 18 日,爲期五天的計算機視覺(CV)三大頂級會議之一的 CVPR 2018 在美國猶他州首府城市鹽湖城(Salt Lake City)拉開序幕。雖然不是大會的第一個正式日,但當日的 26 個研討會(Workshop)以及 11 個挑戰賽也足夠讓現場的數千名參會者飽足眼福。

機器之心現場記者挑選並總結了幾個值得關注的研討會內容,於第一時間和讀者分享。html

前伯克利 CS 系主任 Jitendra Malik:研究 SLAM 須要結合幾何和語義算法

在今年的 CVPR 上,首屆 SLAM(即時定位與地圖構建) 與深度學習的國際研討會受到了極大的關注,這也得益於 SLAM 技術在自主機器人和自動駕駛領域中日益重要的地位。安全

第一場演講的主講人是計算機視覺(CV)領域的宗師級大牛、加州大學伯克利分校前計算機科學系主任 Jitendra Malik。去年年底,Malik 加入了 Facebook 的人工智能研究院(FAIR)。網絡

Malik 首先簡述了過去幾十年在目標識別、定位和 3D 重建的研究發展進程——從以 DPM(Deformable Parts Model) 爲表明的傳統算法開始,隨後介紹了 2015 年先後開始流行的圖像分割重要算法 Fast R-CNN,以及其進一步衍生出的 Mask R-CNN,最後到目前最新的有關 3D 物體形狀的研究。架構

隨後,Malik 推薦介紹了三篇他所參與的、分別被 NIPS 2017 以及近兩年的 CVPR 所接收的論文,都是有關基於二維圖像重建三維結構:框架

  • Factoring Shape, Pose, and Layout from the 2D Image of a 3D Scene,本文的目的是獲取場景的單個 2D 圖像,並根據一組小的因素恢復 3D 結構:一個表示封閉表面的佈局以及一組以形狀和姿態表示的對象。論文提出了一種基於卷積神經網絡的方法來預測這種表示,並在室內場景的大數據集上對其進行基準測試。
  • Learning Category-Specific Mesh Reconstruction from Image Collections:本文提出了一個學習框架,用於從單個圖像中重建真實世界物體的三個方面:3D 形狀、Camera 和紋理(Texture)。該形狀被表示爲對象類別的可變形 3D 網格模型。該論文容許利用註釋圖像集合進行訓練,而不依賴於地面真實 3D 或多視圖監督。
  • Learning a Multi-View Stereo Machine:本文提出了一個多視點立體視覺學習系統。並採用了一種端到端的學習系統,使得比經典方法所需少得多的圖像 (甚至單個圖像) 重建以及完成不可見表面成爲可能。

最後,Malik 提到了在 SLAM 領域一些新進展。在他看來,傳統的繪圖和規劃方法十分低效,由於它須要重建整個區域內的結構,這並非人類所採用的方法。同時,傳統的 SLAM 技術只關注幾何結構(geometry)的註釋卻忽視了語義(semantics),好比人類在看到一個帶着「出口」的門時,他天然而然地就會理解爲「從這兒走能夠出去」,但機器沒有這個概念。ide

「研究 SLAM 須要從語義和幾何結構兩個角度同時出發,」Malik 說道。隨後他介紹了斯坦福大學研究的數據集——Stanford Large-Scale 3D Indoor Spaces Dataset (S3DIS),出自CVPR 2016年的一篇論文。該論文提出了一種分層方法對整個建築物的三維點雲進行語義分析。論文強調,室內空間結構元素的識別本質上是一個檢測問題,而不是經常使用的分割。論文做者們在S3DIS這個數據集上驗證了他們的方法,該數據集覆蓋面積超過6,000平方米的建築,而且涵蓋了超過2.15億個點。佈局


Malik & R-CNN 奠定人 Ross Girshick:視頻問答系統須要更好的數據集學習

依舊是 Malik,他在主題爲「視覺問答 (Visual Question Anwersing,簡稱 VQA) 和對話系統」的研討會上強調了視覺問答系統對目前人工智能研究的重要性,以及它目前存在的挑戰。

VQA 是目前視覺和語言的一個重要的交叉學科領域。系統根據圖片上的信息,回答來自提問者的任何問題。在此基礎上,視覺對話系統(在去年的 CVPR 上被提出)則要求機器能夠回答後續問題,好比「輪椅中有多少人?」「他們的性別是什麼?」

爲何語言對於視覺理解(visual understanding)這麼重要?一篇題爲「語言有助於分類」的研究論文代表,對嬰兒來講,語言在獲取對象類概念的過程當中發揮着很是重要的做用,文字能夠做爲一種本質佔位符,它能幫助嬰兒更快地創建對不一樣物件的認識和表示。

可是,Malik 認爲解決 VQA 很難,遠比物體識別困難的多。系統能夠經過物體識別或者獲取圖片上的一些基本信息,也有很多此類的標註數據集,可是沒有數據集是可以標註圖片中的人類行爲、目標、動做和事件等元素,而這些元素偏偏是視覺理解的關鍵。

另外一位值得一提的演講嘉賓是 FAIR 的高級研究員、一樣也是提出 R-CNN 和 Fast R-CNN 的學術大牛 Ross Girshick。他在演講中提出了目前在 VQA 存在的問題:答案矛盾。

舉一個例子:CloudCV: Visual Question Answering (VQA) 是一個雲端的視覺問答系統,給出一張圖,用戶能夠隨意提出問題,系統會給出不一樣答案的準確率。當一些精明的用戶提出不一樣的問題來「調戲」這個系統時,他們發現這個系統有時會對大相徑庭的問題做出相同的答案。

之心記者一臉懵逼

通常的視覺問答數據集裏都含有這麼三個元素——一張圖片,對應的問題和對應的答案,即爲(I, Q, A)。Girshick 認爲,測量一個 VQA 的準確性不該該是檢查孤立的(I, Q, A),而是應該考量結構化的數據集合,即在同一張圖片下,每個問題 Q 都意味着另外一個答案 A 的值。

「創建這樣的數據集毫無疑問是至關的困難的,但咱們須要數據集對算法和模型的要求更高一些,」Girshick 說。

一個小插曲:Malik 今天講了一個段子:「一位警察駕着警車沿街巡邏。他發現路燈下有黑影晃動,看起來像是個醉鬼,因而警察上前盤問:『請問你在這兒幹嗎?』『我在找鑰匙,剛剛開門時不當心掉了。』『你把鑰匙掉在路燈下了?』『不是,鑰匙掉在門口旁的樹叢裏!』『那你爲何在路燈下面找呢?』『由於這裏光線比較亮啊!』」

雖是老梗,Malik 卻認爲這個故事和現在的科學研究頗爲類似。近年來大量標註數據、強大的算力以及大規模模擬環境給當前的監督學習提供了很好的研究環境,這就如同那個路燈下,快速地提高研究成果,但這或許不是通往強人工智能的正確道路。


吳恩達高徒 Honglak Lee: 視頻預測和無監督學習

在 CV 領域,深度學習在視頻分析領域,包括動做識別和檢測、運動分析和跟蹤、淺層架構等問題上,還存在許多挑戰。在今年的 CVPR 上,主題爲「視頻理解的大膽新理念」的研討會未來自視頻分析領域的研究人員彙集在一塊兒,討論各類挑戰、評估指標、以及基準。

研討會邀請到了密歇根教授、谷歌大腦研究員 Honglak Lee,他也是吳恩達在斯坦福大學的高徒。

Lee 帶來的是有關視頻(動做)預測和無監督學習方面的研究。

Lee 介紹說,目前研究視頻分析的一個關鍵挑戰是將產生圖像的許多變異因素分開,場景方面包括姿式、形狀、照明,視頻方面則是後景和前景對象的區分,以及畫面中不一樣物體的交互。他的研究方向是在視頻上進行復雜的推理,好比預測將來並對其採起行動。

Lee 主要介紹了他最新的一篇被 ICML 18 接收的論文:Hierarchical Long-term Video Prediction without Supervision。該論文旨在提供一種用於解決長期視頻預測的訓練方法,無需高級監督就能夠訓練編碼器、預測器和解碼器。經過在特徵空間中使用對抗性損失來訓練預測變量來作進一步改進。Lee 研究的方法能夠預測視頻將來約 20 秒,並在 Human 3.6M 數據集上提供更好的結果。


自動駕駛座談會:挑戰,機遇,安全

本屆 CVPR 的自動駕駛研討會算得上是陣容強大:Tesla 的人工智能主管 Andrej Karpathy、Uber 自動駕駛主管、也是多倫多大學 CV 領域的權威 Raquel Urtasun、伯克利自動駕駛產業聯盟的聯合創始人 Kurt Keutzer 等。

儘管他們各自的演講並不甚出彩,主要就是給自家公司「打廣告」,但在當天最後的座談會上,受邀的八位嘉賓(Karpathy 除外)之間卻迸發出了可貴一見的精彩辯論。

這也難怪,自動駕駛領域和 CVPR 絕大多數的研討會主題都不一樣。視覺理解也好,SLAM 也罷,它們並不太牽涉到生與死的問題。但在自動駕駛領域,研究者們的一舉一動和數以億計的人們的身家性命息息相關,這讓話題內容的高度和意義每每被拔高。同時,各家對自動駕駛的理解也都不太同樣,互不相讓下所引起的爭辯反卻是給底下的觀衆提供了更多的思考。

長達一個小時的座談會上,機器之心記者總結了其中三個比較重要的議題:


什麼是自動駕駛最大的挑戰?

Lyft 的工程副總裁 Luc Vincent 認爲計算(compute)尚未準備好,同時社會對自動駕駛的接納程度還不夠高。

伯克利的 Keutzer 教授認爲是感知(perception), 這個觀點獲得了 Urtasun 的支持,不過兩人在隨後的問題上產生了意見分歧:Urtasun 認爲解決了感知,規劃(planning)也就不成問題了。Keutzer 卻認爲,這二者是兩回事兒,即便感知的問題解決了,仍是沒法解決在特定場景上出現的規劃上的困境。

一樣是伯克利的博士後研究員 Bo Li 認爲自動駕駛領域依然存在許多未收集到的角落場景(corner case),這會引起一些安全隱患。


若是你是一名 CV 的博士生想要作自動駕駛的研究,你應該作什麼?

「作地圖!」Urtasun 搶先說道,她認爲目前在高精度地圖上,業內沒有衡量的標準以及可靠的解決方案,技術上難度也比較大。

結果,Urtasun 的回答立刻遭到了幾位同行的駁斥。「千萬不要作(地圖)!」密歇根大學副教授、May Mobility 的 CEO Edwin Olson 趕忙搶過話來。「咱們正在處於一個在自動駕駛領域中很是愚蠢的時間點——對地圖有着過度的依賴。我認爲地圖的短板也很是明顯,並且最終咱們會慢慢地減小對地圖的依賴。」

其餘人也都表達了相似的觀點:「算法上去了,你天然不那麼須要地圖。」「將來製做高精地圖的技術也會愈來愈可靠,須要標記地圖數據的人力也會逐步下降。」


將來將如何衡量不一樣自動駕駛車輛安全性?

這是一個讓很多現場嘉賓卡殼的問題,業界彷佛也沒有一個統一的衡量標準。Olson 卻是提出了頗有新意的觀點:「車險」,從車險的高低或許能看出公司對安全性的信心到底有多少。

隨後,Bo Li 提出,將來或許能夠經過建模,將自動駕駛後臺系統的代碼輸進去作基準評估。不過,加州自動駕駛公司 Nuro.ai 的高級工程師 Will Maddern 告訴機器之心記者,這個想法短時間內還很難實現,他認爲比較可行的方法是讓不一樣的車輛在同一環境裏跑來作一些比較。


挑戰賽結果出爐:中國軍團的進擊

除了研討會上的嘉賓演講外,大會首日的另外一大亮點則是挑戰賽。據機器之心記者瞭解到,中國學者們在挑戰賽上有着很出色的發揮,如下是目前獲悉的比賽結果(不徹底):


DeepGlobe 衛星圖像理解挑戰賽

DeepGlobe 衛星圖像理解挑戰由 Facebook、Uber、IEEE 下的 GRSS 機構等聯合贊助。衛星圖像是一個強大的信息來源,由於它包含更多結構化和統一的數據。雖然計算機視覺社區已經開發出許多平常圖像數據集,但衛星圖像最近才引發人們對地圖和人口分析的關注。

所以,組織者提出了該項挑戰賽,圍繞三種不一樣的衛星圖像理解任務進行構建,分別是道路提取、建築檢測,和土地覆蓋分類。本次比賽建立和發佈的數據集可做爲將來衛星圖像分析研究的參考基準。

最終,來自北京郵電大學的 Lichen Zhou 團隊在道路提取任務上得到第一,而來自哈爾濱工業大學和 Chao Tian 團隊則贏得了土地覆蓋分類任務的第一名。

連接:deepglobe.org/workshop.ht…


Look Into Person (LIP) 挑戰賽

Look Into Person(LIP)挑戰賽由中山大學和卡內基梅隆大學聯合舉辦。該挑戰賽旨在提升計算機視覺在野外場景中的應用,好比人類解析和姿態估計問題。該挑戰賽一共有 5 個 track,來自京東人工智能研究院的 Wu Liu 團隊得到了其中單人和多人姿態估計任務的第一名。

連接:sysu-hcp.net/lip/pose_lb…


圖像壓縮挑戰賽(CLIC)

CHALLENGE ON LEARNED IMAGE COMPRESSION 挑戰賽由 Google、Twitter、Amazon 等公司聯合贊助,是第一個由計算機視覺領域的會議發起的圖像壓縮挑戰賽,旨在將神經網絡、深度學習等一些新的方式引入到圖像壓縮領域。

據大會官方介紹,這次挑戰賽分別從 PSNR 和主觀評價兩個方面去評估參賽團隊的表現。不久以前,比賽結果公佈:在不一樣基準下,來自國內創業公司圖鴨科技的團隊 TucodecTNGcnn4p 在 MOS 和 MS-SSIMM 得分上得到第一名,騰訊音視頻實驗室和武漢大學陳震中教授聯合團隊 iipTiramisu 在 PSNR(Peak Signal-to-Noise Ratio,峯值信噪比)指標上佔據領先優點,位列第一。

比賽結果:www.compression.cc/results/


Moments in Time 視頻行爲理解挑戰賽

Moment 是由 MIT-IBM Watson AI Lab 開發的研究項目。該項目致力於構建超大規模數據集來幫助 AI 系統識別和理解視頻中的動做和事件。現在,該數據集已包含了一百萬部標記的 3 秒視頻,涉及人物、動物、物體或天然現象,捕捉了動態場景的要點。

此挑戰賽分爲 Full Track 和 Mini Track,比賽的前三名均爲中國團隊所得:

比賽結果:moments.csail.mit.edu/results2018…

在 Full Track 類別中,來自海康威視的 DEEP-HRI 得到了第一名,曠視科技第二,七牛雲團隊第三名。在 Mini Track 中,來自中山大學的 SYSU_isee 團隊得到第一名,北航與臺灣大學的團隊分別是二三名。

在大會第一天,機器之心觀察、記錄到了以上內容,但這些並不能表明所有精彩內容。接下來幾天,咱們將會繼續爲你們報道 CVPR 2018 大會,讀者中有參與大會的同窗也能夠爲咱們投稿,從而把更多精彩內容分享給你們。

相關文章
相關標籤/搜索