專訪iDST華先勝:城市大腦,對城市的全量、實時認知和搜索

編者按:10月11-14日,爲期四天的2017杭州雲棲大會(門票火熱搶購中!)將再度在杭州雲棲小鎮起航,做爲全球最具影響力的科技展會之一,本屆大會將有很多阿里集團專家以及各企業行業領袖的精彩演講。從今天開始,雲棲社區將會對大會嘉賓作一系列專訪,想了解嘉賓以及最新議題信息請關注「雲棲大會」公衆號。第一位嘉賓咱們採訪的是IEEE Fellow,國家千人,阿里巴巴 iDST副院長華先勝,他將在10月的雲棲大會上分享關於計算機視覺領域的前沿趨勢以及城市大腦最新的進展。算法

在7月底結束的全球計算機視覺頂級會議——CVPR 2017上,阿里巴巴有四篇論文被大會收錄,這四篇論文所有出自阿里巴巴人工智能研究機構iDST和人工智能實驗室。做爲iDST視覺計算組負責人,華先勝還受邀發表了《Practices of Large-Scale Target Re-Identification》的主題報告,報告中提到了他所負責的城市大腦項目。服務器

對外界而言,城市大腦是一個熟悉而又神祕的項目,若是用一個通俗而又古老的詞來描述,它就是智慧城市,但事實上城市大腦已經遠遠超越了你們一般談論的智慧城市 --  你很難想象要實現從感知到決策優化、到預測,以及到干預的背後,技術團隊所面臨的挑戰有多大。架構

華先勝告訴雲棲社區,城市大腦的核心就是大數據和大計算,挖掘大量城市異構數據的不可替代的價值是其任務。但數據也有不一樣來源,城市數據是視覺數據、公交數據、GPS數據以及人口等異構數據的聚合體,在這些數據中,視覺數據是量最大也是最核心的部分。華先勝指出,視覺數據相比其它數據更加全面,這也是爲什麼視覺方向須要投入更多的人力。運維

不難理解,相比電商中的商品搜索,城市大腦涉及到的問題更加複雜,如何把城市的車,人,物品,道路,建築等進行有效等索引和搜索?深度學習又如何幫助計算機視覺克服應用落地難題呢?學習

ad1d029c5bf5301768ace3b3365463a2735e0a6d

如下是雲棲社區對華先勝博士的採訪實錄:測試

(華先勝博士,國家千人,IEEE Fellow、ACM傑出科學家、MIT TR 全球 35 位 35 歲如下的傑出青年創新人物,曾擔任 ACM Multimedia 等大會程序委員會主席,是視覺識別和搜索領域的國際級權威學者。於 2016 年 4 月加入阿里人工智能研究機構iDST科學家團隊,帶領視覺計算團隊的研發工做。)大數據

雲棲社區:您帶領的iDST視覺部門在負責城市大腦項目,請介紹一下這個項目的具體狀況,目前取得了哪些突破性的進展?優化

華先勝:首先從high level的角度來說,城市大腦其實是大數據和大計算,挖掘大量城市異構數據的不可替代的價值是其任務。由於城市是一個很是特殊的大量的異構數據的聚合體,這其中的異構數據包含視覺數據、公交數據、GPS數據以及人口數據等等。動畫

因此說,一座城市是很是複雜的,裏面的數據量很是大,而其中量最大的就是視覺的數據。一個城市若是有十幾萬攝像頭,天天24小時在跑,產生的數據量是巨大的。可是這些數據的價值在過去並無被充分挖掘出來,海量設備的部署和運維成本很高,但它的價值遠遠不僅是傳統的車牌識別和交通處罰 …搜索引擎

由於深度學習對計算機視覺的推進,咱們對整個城市的感知能夠作得更好,不只僅是車牌和交通違章的檢測問題,我能夠知道更多的細節,例如車的形狀、型號、路徑、速度,同時也能夠感知到行人和騎行人等等。也就是,今天的深度學習算法可使咱們對城市進行更爲全面的感知,這也是算法方面的能力提高的體現。另外一方面是計算能力,雲計算、GPU、FPGA等這些都讓咱們能夠實現海量數據的計算,同時實時處理千路,萬路,甚至更多路的視頻…

有了對城市的全面實時和全量感知,一旦遇到突發狀況,立刻就能夠找出相關的數據,好比查找嫌疑車、肇事車、嫌疑人。此外咱們還能夠基於分析後的數據對整個城市進行優化,好比說交通的優化。並且,城市大腦還能夠進行預測,例如10分鐘之後哪裏會交通擁堵?20分鐘之後哪裏會有問題?還能夠作更長一點時間的預測,例如,若是明天杭州會下大雨,在西城某個地方還有個大型的演唱會,在東城還有某個大規模的活動,這種狀況下你大概就能夠預測明天車流的狀況,以及可能一些路段的事故概率會提高好幾倍。根據預測出來的結果,咱們能夠提早進行警力和醫療資源的部署,甚至提早作一些交通管制、限流等等,不讓很差的事情發生。

總結起來就是,從數據源到感知,到決策優化,到預測,到干預。城市大腦打造的是一個具備數據智能的城市。目前咱們在杭州城區和蕭山區已經部署運行了很長時間,在算法上也有不少的突破,例如咱們在服務器端用更優的算法能夠實現更精準的車輛檢測、車牌識別,還有實時監測事件事故、預測交通情況,以及整個視頻處理的這麼一套高效的流程。咱們能作大規模的視頻處理,這對效率和穩定性都是一個很大的挑戰。過去的大半年時間,通過不斷的迭代優化,咱們在整個鏈路的處理速度提高了20倍。

雲棲社區:計算機視覺部分在城市大腦項目中渠道了一個什麼樣的做用,它涉及到了哪些研究課題?和其它計算機視覺應用場景相比又有哪些聯繫和差別體?

華先勝:毫無疑問,視覺的數據在覆蓋上沒有GPS數據好,由於它是個斷面數據,可是視覺數據更加全面,它能夠知道整個路口的詳盡的狀況。因此視覺絕對是核心的,投入的人也是最多的。

城市大腦的計算機視覺部分涉及到的問題除了視覺感知、識別的基本問題外,還有基於視覺的結構化數據之上的一些問題,例如搜索方面。你們知道,拍立淘是電商的商品搜索,而城市的數據遠遠多於商品的數據,但它也是能夠實時索引的。經過攝像頭的視覺數據進城市的索引和搜索,這是城市大腦的突破之一。

雲棲社區:爲一座城市進行圖片搜索,如何實現?

華先勝:首先,數據量的問題,是索引技術要解決的問題,可是能不能搜出來,是特徵的問題。城市圖搜的技術總體路線和拍立淘是相似的,首先要知道目標在哪裏,也就是目標檢測;而後是識別車或人等移動目標,以及這些目標的一些屬性;最後是要抽一個特徵,一個高維向量,表明這個目標的本質特徵。

一張圖像通常有不少目標須要處理,每一個目標會做爲一個單元放到索引裏面去,而後每一個單元就會有一個特徵來描述它。城市圖搜比商品搜索問題更復雜一點,好比說車,同一商品的不一樣實例對於電商搜索而言,它們是同樣的,可是對於車而言就不同了,相同型號的車,不一樣車主的車輛是不相同的。從大致的技術上來講就是要找到一些細節特徵區分不一樣的車和人。車的問題還比較好解決,人的特徵描述和搜索問題,類人臉看不清楚的狀況下,目前仍是很困難的。雖然在公開測試集上,咱們超越了公開發布的最好結果,可是咱們以爲在實際應用場景中仍是蠻困難的一件事情。

回到前面提到的數據量的問題,倒排是一般使用的發發。但視覺沒有關鍵詞,我不能直接用倒排的技術。所以,咱們要把這個視覺的特徵變成關鍵詞關健詞,虛擬的、抽象的關健詞,而後經過這種方式來進行倒排,這樣就能解決數據量大的問題。固然,還有搜索量大的的問題,這個通常是經過系統的方法來解決。

雲棲社區:從技術角度和商業角度分別談談計算機視覺方面面臨的挑戰?對工業界而言,如何去克服這些挑戰?

華先勝:計算機視覺是屬於AI裏面最重要的一部分,AI創業公司大部分是作視覺的,可是AI還不成熟,一個算法很難在多個場景下都能表現優秀,即使是相對成熟的人臉檢測、人臉識別,在不一樣場景下都還須要調優。

我以爲視覺技術若是要發展的更好,真正的產生實用價值,仍是要結合具體的應用場景,結合行業的特色,把算法調到最優。爲了克服一些算法自己的缺陷,你還可能須要一個很好的用戶界面來下降算法缺陷的影響。

各行各業的場景和數據,是須要作深刻的探究的,包括城市大腦也同樣,城市大腦的場景看上去和基礎行業差很少,例如,檢測、識別、跟蹤、搜索等等,可是你沒有深刻了解這個行業,就很難作好並使其產生真正的價值。

雲棲社區:計算機視覺如今發展得如此順利,緣由之一就是深度學習,如何看待深度學習已成爲計算機視覺的標配?

華先勝:目前識別和搜索方向基本上是用深度學習,但在生成方向,有些傳統方法還在使用。

整體來講,這是一件好事情,由於過去計算機視覺離應用很遠,而隨着深度學習的到來不少場景都開始落地了。像SIGGRAPH這個會議,之前工業界參加的人就很是多,由於這裏作的不少研究是可落地的,例如在電影、動畫、遊戲等等行業;而當時,CVPR會議工業界的參與就少得多。今天,工業界參與CVPR的人數我相信也是遠遠超過過去的,工業界裏面不少人會願意去看這些技術,這是好事情。

固然,就目前來講深度學習理論方面沒有太好的進展,但它也不是沒有規律可循,作好的門檻仍是很高的。

雲棲社區:深度學習在實現計算機視覺應用上存在哪些侷限性?將來是否會被新的技術顛覆?

華先勝:侷限性有不少,深度學習看上去很美,但實際上還有不少問題沒有解決好,好比說人臉識別在小規模上作得仍是不錯的,幾千我的效果還行,但規模進一步擴大作對比就很難實現了;另外,視頻質量、分辨率、遮擋問題都限制了識別的效果,這一點機器沒法和人相比。深度學習對數據的依賴也很強,小數據上的深度學習仍然須要更多的探究。

深度學習在近幾年的發展勢頭很猛,未來確定也會有新的技術會顛覆它。

雲棲社區:上個月的CVPR,咱們一篇名爲《從視頻到電商:視頻衣物精確檢索》的論文被收錄了,可否爲你們介紹一些其中有哪些創新點?

華先勝:這個工做採用了目前最早進的衣物檢測和跟蹤技術,針對明星同款檢索中存在的多角度、多場景、遮擋等問題,提出可變化的深度樹形結構(Reconfigurable Deep Tree structure),利用多幀之間的類似匹配解決單一幀檢索存在的遮擋、模糊等問題。該結構能夠認爲是對現有attention模型的一種擴展,能夠用來解決多模型融合問題。

雲棲社區:作視覺的創業公司愈來愈多,您認爲計算機視覺在哪些應用領域的前景最大?

華先勝:第一個就是交通安防,這也是咱們城市大腦在作的方向,交通安防是最快可以落地、市場潛力很大的方向,交通安防問題實際上就是城市的感知和基於感知之上的優化決策,預測和干預;第二個是富媒體,就是經過視覺的方法去挖掘大量的視頻、圖像數據的價值。

另外,醫療圖像方向也是將來的一大熱門,雖然醫療領域的落地時間可能會稍微遠一點,但它的應用前景很好;還有工業視覺,將來能夠經過攝像頭來代替過去絕大多數須要人眼來檢查、判斷的場景,這是一個尚待進一步開墾的領域;端上的視覺智能也是一個很好的方向,包括芯片和一些基於視覺的應用。

雲棲社區:談談您對人工智能商業化的見解。

華先勝:以前我就曾經講過,一個成功的人工智能應用,應該具有五個條件。

第一個是算法。你要有好的算法,你的算法要有先進性,你的算法不行一切都沒有了基礎。

第二個是要有數據。數據自己就是一個很大的話題,裏面有數據的採集、蒐集、清洗、有效的標註,甚至包括算法裏面數據怎麼使用。

第三個是用戶。你作的這個東西應該有用戶的,由於有不少問題是須要用戶參與才能夠作得愈來愈好。固然你從商業的角度來說,沒有用戶的話也不可以長久。用戶自己是數據的消費者,也是數據的提供者,這過去在搜索引擎裏面有很是重要的體現,能夠說搜索引擎的技術可以作那麼好,每一個人都有contribution的。

第四個就是平臺。這個就是涉及到你要有強大的計算能力和一套體系架構,可以方便地去研發、部署和生產,這一套是必需要有的。固然如今由於有云計算,因此這部分的瓶頸,對於不少企業來說已經沒有過去那麼困難了。

第五個就是有好的商業模式。若是沒有好的商業模式,就不可能長久。你作一個事情,低頻的事情沒有多少人用,或者不能給少許用戶帶來大的價值,最後產生的整體價值不夠的話,實際上是很難長久的。這幾點,我我的以爲實際上是都應該具有的。固然了,可能不一樣的商業應用,應該來講可能有不一樣的側重,可是我以爲都應該具有。

雲棲社區:您認爲CV領域將來會有什麼樣的新變化?

華先勝:這須要看從哪一個level來說,若是從技術來說,深度學習自己的演化,這自己就是重要的方向,例如GAN在更多場景的中的應用;大規模的視頻處理挖掘也多是重要的方向。若是再往上層來說,咱們前面講的智能應用的角度,就是深刻行業去讓這我的工智能,或者叫視覺智能真正的落地,而後產生真正的影響力,真正的價值。在這個方面進行實踐和探究,回過頭來還會推進視覺技術的進一步的發展。只有落到實處,才知道還有問題沒解決,現實世界是很殘酷的。

雲棲社區:在本次雲棲大會上,您會分享什麼話題?可否提早透露一些亮點,以及分享這個話題的初衷?

華先勝:我會介紹視覺技術在各行各業裏面的一些應用以及挑戰,特別是城市大腦中的技術和應用。之前對城市大腦的介紹都是走馬觀花,此次會講得更深刻一些,例如關於城市大腦裏面的技術細節,以及它的價值體現,等等。

相關文章
相關標籤/搜索