2019杭州雲棲大會上,高德地圖技術團隊向與會者分享了包括視覺與機器智能、路線規劃、場景化/精細化定位、時空數據應用、億級流量架構演進等多個出行技術領域的熱門話題。現場火爆,聽衆反響強烈。咱們把其中的優秀演講內容整理成文並陸續發佈出來,本文爲其中一篇。前端
高德地圖首席科學家任小楓在高德技術專場分享了題爲視覺智能鏈接真實世界的演講,本文根據現場內容整理而成(在不影響原意的狀況下對文字略做編輯),更多視覺智能技術的實現細節請關注後續系列文章。算法
如下爲演講內容的簡版實錄:數據庫
我今天主要給你們介紹視覺及相關技術如何在高德落地,如何幫助鏈接真實世界。鏈接真實世界這句話並不僅是我我的的想法,而是高德地圖的使命,咱們的使命是鏈接真實世界,讓出行更美好。後端
首先,簡單介紹下高德地圖,有超過1億的日活用戶,超過4億的月活用戶,高德地圖不光提供導航,也提供出行相關的其餘服務,涵蓋了信息服務、駕車導航、共享出行、智慧公交、智慧景區、騎行、步行、長途出行等應用場景。安全
高德地圖作的事情是創建人和真實世界的關係,人要跟真實世界創建聯繫,地圖是基礎,地圖之上還有更多的信息能夠獲取。架構
視覺是鏈接真實世界的橋樑性能
視覺是鏈接真實世界的橋樑。爲何?從人的信息獲取角度來看,80%的內容是經過視覺獲取到的。從人的信息處理來看,人的大腦30%-60%用於視覺感知。從機器的角度,視覺是很是重要的通用感知手段。優化
人類感知真實世界的方法,還有不少其餘方式,例如傳感器、LT...可是,做爲通用的手段,我一直以爲視覺是第一選擇,通用,信息量很是大,能夠遠距感知,也能夠作到實時。設計
還有一個緣由,人類真實世界裏(各類元素)80%以上是爲了視覺而設計。有的時候,咱們對真實世界太過於熟悉,可能不會太在乎。可是看一下週圍的標誌和信息,包括認識的事物,都是根據視覺設計和獲取。3d
由於人類獲取信息的主要方式是經過視覺,因此真實世界的設計也是基於視覺。你們能夠想象下,若是獲取信息的主要方式是經過嗅覺,那這個世界會很是不同。基於這些,回到咱們在作的事情,你們必定不會奇怪,地圖信息的獲取和創建,絕大部分也是來自於視覺。
視覺技術@高德地圖-地圖製做
視覺技術在高德地圖的應用有不少不一樣的方式,以下圖所示:
左邊是地圖製做,有常規地圖和高精地圖,高精地圖對應於將來的無人駕駛。右邊是跟導航體驗相關的,咱們在作的一些跟定位相關的工做,也在利用視覺技術但願使導航變得更加便利。由於時間關係,今天只給你們介紹常規地圖和導航相關的部分。
地圖服務從哪裏來,首先要採集資料,目前絕大部分是經過相機和視覺的方式採集信息。真實世界很大,全國有幾百萬千米道路,再加上其餘信息,人工方式目前是處理不過來的,很大程度上須要用自動識別,經過算法識別資料。固然有時候算法沒辦法作到100%,還須要人工修正,從而製做成地圖數據庫,來支持地圖數據服務。
地圖製做任務,常規地圖任務一般分爲兩大類,一類是道路相關,一類是POI掛牌識別。這兩類任務都須要較多的視覺技術。例如,在道路標誌識別上,算法要作的就是把道路上的標誌一個一個所有找出來,同時識別標誌的類型和內容。
道路標誌有100多種。若是隻是處理這些標誌,其實並非那麼複雜。現實中,有時候須要用低成本的方式採集數據,這時如何保證圖像質量就是須要考慮和解決的問題。
採集信息的時候,有時候圖片會有畸變、反光、遮擋等狀況,先不說分辨率壓縮的問題,成像自己取決於鏡頭的質量和成本、天氣條件、光線等因素,有時候採集回來的圖像中差的圖不少。這時候就不僅是單純去解決一個理想當中的算法問題,也須要處理不少實際狀況。
給你們舉幾個例子,下面左邊的圖是實際採集的圖像,會有各類各樣的問題。你們對相機有些瞭解的話,知道相機有內參和外參,內參是焦距、中心、畸變。外參是位置、角度,這些都會影響成像效果。
另外一個例子,圖像質量。有的圖質量比較差,可是沒辦法丟掉,仍是有有用的信息。有的原始圖像,放大以後很是模糊。若是這時採用圖像加強的方法,能夠把這張圖變得更清楚。改善原始數據的質量,有不少可用的方法。好比提升識別算法精度,提升人工效率,也能夠用它作模糊的檢測,對比一下加強先後,能夠知道哪些是模糊,哪些是不模糊。
剛纔舉的只是交通標誌的例子。還有一個有趣的問題,就是感知電子眼。電子眼很小,而小目標的檢測是一個有挑戰的問題,在研究領域你們也比較關注。你們能夠感覺下,拿一張圖,若是是過小的東西,放大以後就看不清了,還不如遠景。那怎麼能比較精確的找到這麼小的電子眼呢?
一般方式就是放大區域,由於這個東西過小了,光找這個目標比較難,找到區域放大,引入周邊的信息。這些信息能夠幫助更好的找到這個小目標,放的再大一點,才能看到其餘相關的信息來幫助電子眼的智能檢測。
可是放的太大也會有問題,放的太大會引入不少無關的信息。從技術上來講有一些解決方法,如今視覺技術上用的比較多的有一個注意力機制,畫一個大框,機器本身會學哪塊重要哪塊不重要,幫助更好的聚焦到目標自己。固然,儘可能會用一些先驗信息,好比自己的分佈、高度、大小。
如何判斷?由於這張圖表達的不同,若是仔細看,確實能夠看到背景的建築、架設類型都差很少。須要用算法來判斷究竟是不是,這就牽涉到目標檢測、車道歸屬、架設類型分析,還要作場景匹配。經過這些,很大程度上能夠判斷這是一個什麼場景,從而判斷兩張圖的元素是否是同一個。
剛纔說的是道路,下面是幾個跟POI相關的例子。POI的牌子,能夠分紅好多不一樣類型,有牌坊式、掛牌式、門臉式等。不只POI各類各樣,非POI其實也各類各樣。若是隻是檢測文字的話,你會發現真實世界裏的不少不是POI,有的只是標牌、標語、廣告、對聯、交通標誌等。因此,要區分出POI和非POI。
有不少其餘的複雜場景,這裏不一一舉例了,有些可能平時也不太能想到,好比三維掛牌,它不是一個平的牌子,在街角,多是一個水果超市,沿着街角彎曲過來。這類牌子很難在一張圖裏徹底檢測出來,即便檢測出來,一不當心就會分紅兩塊牌子,因此真實世界的複雜性仍是會形成更多的問題。
面對這麼多複雜性,須要去分析具體場景的狀況。不少時候最後的結果每每不是一個算法就能解決全部的問題,須要各類算法的融合。比方說,若是是文字,須要作檢測,文字自己也須要作檢測和識別。位置的話,須要作一些三維方面的推斷。不少時候資料獲取到之後也有模糊和遮擋的部分,也要作判斷。
每個判斷不是單一辦法就能夠解決,不是光靠一個模型就可以作到最好的效果,須要的是兩個甚至更多的模型,從不一樣的角度去解決問題,纔可以達到更好的效果,這是在數據積累的基礎之上。
上面列舉的一些問題有必定的複雜性,跟全部的問題同樣,越作到後面越難,咱們如今還在作,這些算法很大程度上決定了地圖製做的效率和觸達到用戶的地圖質量,這些是很是重要的核心問題。
POI也不光是以上介紹的只須要判斷是否是POI或者文字識別,不少時候還須要作版面的內容理解。若是一個牌子,須要知道這個牌子上的信息,有時候會有主名稱,有時候會有分店,有時候沒有,有沒有聯繫方式、營業範圍,這些都須要用算法去作。
視覺技術@高德地圖-導航
以上介紹的是在地圖製做方面有不少的複雜性,須要用視覺算法或者其餘算法來處理。接下來分享下在導航方面的。
先說下本身的一個體會。前段時間在西班牙休假,歐洲的環島特別多,谷歌(地圖)導航常常提示我,進了彎道以後從第三個出口出去,我當時特別鬱悶,由於要數口子,常常你也不知道那個到底算不算出口,因此走錯了好幾回。我在國內沒開過車,國內的交通更復雜,例如在北京的西直門,有時候能夠直接右拐,有時候須要轉一個810度的圈。
咱們但願對導航的方式作一個比較大的變化,讓它變成所見即所得的場景。若是有算法可以直接告訴人們往哪邊走,對人來講是更加有用的,可以讓開車更加簡單,導航變得更加直接。
不少汽車如今都會有攝像頭,無論是前端仍是後端,不少時候能夠獲取到視頻數據。咱們把AI算法計算出的效果疊加在視頻上,告訴人們到底該怎麼走。
這個產品中,除了引導以外,還有別的功能。例如,也加入了前車的碰撞預警功能,會估計前車的距離和速度,這將幫助你們安全駕駛。其餘事物也能夠用更加直觀的方式展現,例如限速,電子眼,跟斑馬線相關的,若是看到前方有人,也會作出提示。
以上的功能看起來可能不那麼難,但要實現起來很難。爲何?由於咱們但願這是每一個人立刻就能實用的功能,因此要作到很低的成本。這和自動駕駛系統不同。從傳感器的角度,咱們要作的是單個傳感器,並且是低成本的相機。從計算的角度來講,自動駕駛系統可能會用一個幾百瓦的專用芯片,而對於咱們來講,所須要的算力大概只是普通手機的五分之一。
給你們看一個AR導航的例子,這是實際算法的輸出,這個例子裏面有車輛的檢測,車道線的分割,和引導線的計算等。剛纔提到了,高性能(低算力)是一個主要挑戰,那咱們在開發算法的時候就要充分考慮計算效率,包括各類手段,好比模型壓縮,小模型訓練優化,檢測和跟蹤的結合,多目標的聯合模型,和傳統GPS導航的融合,等等,須要幾件事情在一個模型裏作。
真實世界是很是複雜的,要作到高質量、高效的地圖製做,或者作到精準的定位導航,在視覺方面還有不少工做要作。但願經過以上介紹,你們對視覺技術在高德地圖中的應用,在出行領域的應用,有了更多的瞭解,也對高德的使命有了更多瞭解。
咱們在不少時候須要去鏈接真實世界或者是理解真實世界,纔可以讓出行更美好。但願可以儘快的把這些作好,讓你們實際應用高德APP的時候,可以感覺到技術進步帶來的體驗變化。我今天就講到這裏,謝謝你們。