【將門創投】格靈深瞳趙勇:計算機視覺在安防、交通、機器人、無人車等領域的應用

如下內容爲由4月27日由將門主辦的「計算機視覺」主題技術專家微信羣分享發言嘉賓實錄。git

分享嘉賓:格靈深瞳CTO 趙勇算法

300多位來自谷歌、Facebook、微軟、Nvidia、滴滴等公司的技術人士、以及MIT、Stanford、CMU、清華、北大等高校的計算機系優秀學生聽取了本次分享。數據庫

期待你的加入!參與方法請見文章末尾的介紹。安全

今天我和你們分享的主要內容是介紹一下計算機視覺技術部分主要的模塊是什麼,以及跟計算機視覺相關的一些應用。微信

 

計算機視覺是跟圖像處理有關的,主要有如下四個模塊:網絡

  • 第一個是Imaging,成像的過程;dom

  • 第二個是Detection,也就是檢測的過程,能夠關注發現到有趣的物體;ide

  • 第三個是Tracking,若是你要關注這個物體的狀態、運動、行爲、交互,就須要作很好的跟蹤;工具

  • 第四個是Recognition,對於同一類的物體,進一步去發現每個個體的實例。好比說一樣是人臉檢測,檢測事後我想知道這張臉是誰的臉,這就是Recognition。學習

 

這些東西都是計算機視覺作的技術模塊,基於這些技術模塊,背後就是真正的應用。

 

 

過去的計算機視覺

我是從2003年開始念博士的,以前本科和碩士都是在復旦大學學習半導體。剛去美國時,也是在作半導體的工做,後來才轉行進入計算機視覺領域。在2003年,其實半導體技術已經很是成熟了,並且有趣的事情都發生在工業界,而不是學術界。因此那個時候我就萌生了轉行的想法,而且很幸運地選擇了計算機視覺這個方向。

 

當時轉學到布朗大學去作計算機視覺,我是徹底沒有任何背景的,個人導師招我是由於我有比較好的硬件實現能力。正好他當時對運算攝影學(computational photography)很感興趣,這裏面會涉及到不少硬件設計,因此他招了我作他的博士研究生。

 

我想先給你們介紹一下13年前計算機視覺的現狀。當時在美國每一年計算機視覺產品的市場大概有六千億美圓。但在生活中卻看不到任何計算機視覺的產品。這主要是由於計算機視覺在當時很是昂貴,主要應用在軍事、醫療和工業這三個領域。

 

1. 軍事領域

在軍事領域,大多數先進的武器都是有計算機視覺在裏面的,好比說導彈。導彈怎麼樣去尋找目標,怎麼樣去作一個路徑規劃。我給你們舉一個例子,美國曆史上最成功的一個巡航導彈就是戰斧導彈。這個導彈的特色就是它幾乎是貼地飛行或者貼海飛行,它的飛行高度很低。咱們知道當它高度低的時候,那些基於地對空Line of Sight (LoS)工做的雷達,就沒有辦法工做了,那這樣的話,它就能夠逃避大多數的雷達,可以安全地到達它的做戰區域。

 

 

戰斧導彈能夠在10米如下貼海飛行、能夠在25米左右用很是快的速度貼地飛行。這個過程當中,它要應付凹曲的地形,有的時候還可能會有障礙物,可是它飛到目的地附近的時候,它要作一個眼鏡蛇式的擡頭,而後這個時候它再低頭俯視它的目標在哪裏,(這個目標要麼是提早在衛星地圖裏標定好的,要麼是戰場附近的地面做戰人員現場用激光標註的),肯定好目標後,而後再打出去。人類歷史上能夠實施外科手術式的遠程打擊就是依賴這種技術。在這個導彈上普遍地使用了不少不少計算機視覺的技術,好比高度控制、視覺定位、目標尋定。

 

2. 醫療領域

醫療領域就更加是如此了。今天咱們去醫院裏面作一個檢查,醫生用的大部分的診斷工具是跟圖像有關的,包含X光、超聲波、CT、核磁共振等設備。即便是作一個化學檢測,好比驗血,有些時候也要把樣本放在顯微鏡下去成像。固然這是一個廣義的圖像概念,它的圖像包含了電磁波無線電的整個波段,從例如伽馬波段這種很高的頻率一直到頻率很低的波段(好比毫米波)都有,甚至有一些更低頻的超聲波(非電磁波)其實也能夠算在廣義視覺裏面。

 

 

咱們的古人講究用望聞問切來診斷,可是這些手段是很是單一和落後的。今天在醫學領域中的不少問題,若是有很好的醫療設備可以把本質反映出來的話,診斷就能夠很精確了。這個如此大的領域目前主要有三家公司,簡稱「GPS」——GE(通用電氣)、Philips(飛利浦)和Siemens(西門子)。

 

3. 工業視覺

工業視覺指的是在工廠裏的流水線上作的各類跟檢測和組裝有關的視覺系統。好比說一個可口可樂公司的汽水瓶的封裝工廠,它在每一個瓶子裏面裝上汽水的時候,要把一個瓶蓋放上去,這個時候它就須要檢測到有沒有瓶蓋裝的很差,有漏氣或者是瑕疵,這種技術實際上是在工業界很是很是普遍的使用。

 

在13年前計算機視覺的應用就已經很普遍了,那麼在過去這13年裏面到底發生了什麼變化呢?在回答這個問題以前,我想先總結一下在13年前計算機視覺的特色。它們的工做環境:

 

  • 要麼比較簡單,好比說工業視覺,它是在一個嚴格控制光照條件的環境裏進行的,它的任務實際上是比較簡單的;

  • 要麼就是這個任務不必定簡單,可是它對自主化的要求並不高。好比說在醫療領域用的計算機視覺,在那個時候更重要的目標是成像,或者說作數據的加強(image quality enhancement )。那麼它的做用仍是讓醫生看的更清楚,可是最終的決定是由醫生來作的。在軍事領域也是同樣的,不少計算機視覺在軍事領域應用,一旦到了作決定的階段,仍是會把決定權交給人去作,即便是戰斧導彈這麼先進的武器,它在最後的階段眼鏡蛇在瞄準的時候,也是須要一個操做員在背後肯定這個目標到底要不要打。

 

因此13年前的計算機視覺應用要麼環境簡單,或者它只是作加強,並不作最後的判斷。因此這些算法當時並不複雜,可是有一個特色就是這些產品都很是很是地昂貴。這實際上是符合科學發展的客觀規律的。任何一種新技術,它在成熟的過程當中,老是從簡單到複雜,從昂貴到廉價。因此它的應用領域也是從軍事、醫療、工業,再慢慢地到消費行業。

 

 

當今的計算機視覺

那麼13年後有什麼新變化呢?我以爲主要體如今兩個方面:

  • 計算機視覺愈來愈多的進入一些非專業的領域,跟消費者更息息相關的領域。它們開始解決一些現實的問題,這些問題會更復雜,由於他們不是在一個supervised的環境下,尤爲像汽車、機器人,這些領域它其實並不在工廠裏面,也不是在室內,它面臨的是真實的世界,很複雜的光學環境。

  • 設備的自主能力愈來愈高了,不少時候這個設備就本身作了大量的決定,基於它們對視覺感知的判斷就能夠作基本的決定。

     

因此今天的產業環境跟過去是不同的,尤爲是創業公司在今天進入計算機視覺或者人工智能領域的時候,基本上都要面向一些新興的行業。

 

我我的認爲在這個時代計算機視覺最主要的應用領域,若是按照它的產業規模和離現實的關係綜合來考量的話,我會對四個領域特別關注——安全、汽車、機器人、智能醫療。除了這四個領域之外仍是有不少其餘的應用機會,好比說娛樂、動做捕捉、VR、廣告,甚至我曾經作過一些考古相關的計算機視覺項目。

 

1. 計算機視覺的相關技術

1) 成像與運算攝影學

如今來討論一下成像的過程,不少人以爲成像很是簡單,不就是一個攝像頭麼,有一些參數能夠調節,如曝光時間、白平衡、色彩均衡等。但事實上若是咱們這麼想的話,就失去了好好理解成像的機會。

 

當咱們想到圖像的時候,咱們應該從一個廣義的角度來理解它。其實電磁波是上帝賜給咱們這個世界很是重要的禮物,它能夠幫助咱們超越物理的距離去感知周圍的環境。可是電磁波頻率的範圍是很是廣的,好比說快的X光、伽馬射線,還有一些宇宙射線,低頻的話能夠到毫米波。好比從400到650納米是可見光的波段,可是從紫外線、可見光、近紅外、紅外線、thermal甚至一直到毫米波的波段,這裏面都有不少很豐富的資源。在不一樣的波段上,它們的行爲也是很是不同的。可是咱們今天想到計算機視覺只能想到從400納米到650納米這個波段,那麼這樣講的話就太狹隘了。

 

今天給你們介紹一個叫Computational Photography(運算攝影學)的概念。它的意思就是說咱們可使用各類各樣的電磁波手段,以及各類各樣的算法、多種傳感器的融合,經過有趣的算法和運算的組合,可以產生新的感知數據。在這個領域裏面存在一些人,他們不甘於接受傳統的RGB傳感器給咱們提供的數據,發明了各類各樣的新型相機,生成的有些圖像是咱們人的眼睛或者傳統照相機看不到的,好比說深度攝像頭。咱們都知道深度攝像頭能夠給咱們返回很是珍貴的深度信息,有了深度信息咱們就能夠更精準地把握一個環境的三維結構,它可使得檢測、跟蹤、識別的不少任務,變得更加可靠、簡單、方便。有不少方法可以得到深度,好比你們常瞭解的經過多個視角的畫面可以算出來的,還有結構光,這裏面涉及到一個projector(投影儀)。其實projector的光學模型和Camera徹底是相反,它是一對duality,它們的不少行爲都是能夠互補的。還有一些激光雷達的方法,據我所知道的depth sensing的方法大概有20多種,今天在產業上進入成熟的大概只有三四種。

 

  • 應用場景1:光場相機

    光場相機簡單的說就是這種相機能夠完整地捕捉咱們眼睛瞳孔前成像的平面上全部的光學行爲,它是一個四維的場。若是咱們能夠把光場捕捉下來,就能夠過後在其餘的地方重現完整的光學環境,使得咱們的顯示、捕捉、識別能夠作得更好。一個最典型的光場display就是如今炒的很是火的Magic Leap想要作的事情。

     



  • 應用場景2:Femto Photography相機

    接下來想介紹一種叫作Femto Photography的相機。Femto指的是經過傳感器和算法的組合,可使得成像的速度達到光自己頻率的程度,它是一個時間和頻率度量的名詞,基本上是10的負15次方這個水準。Femto Photography使咱們觀測的緯度和速度可以提到光自己的程度。好比說咱們知道光是有運動行爲的,它從A到B實際上是一個連續的過程,咱們是否有一種相機自己能夠去觀測光本身的運動呢?這聽上去像是一個僞命題,由於咱們的相機也是經過光的感知來實現的。既然咱們依賴了光,咱們怎麼可能去觀測比咱們依賴的基本的光還要更快的東西呢?

    有個實驗就捕捉了一束閃光燈,從它發出來到它穿過一個可樂瓶這個過程當中的畫面。這裏用了一個頗有趣的光學跟算法的組合重現這個畫面,它幫助咱們更好的理解了光學行爲。在工業界中其實這裏面有不少有趣的應用,另一個Femto Photography的例子就是如何經過折線可以看到一個場景。好比說繞過一個牆角,看到牆角背後的一些事情,它也是利用了一些Femto Photography的技術。

          

 

2) 定位的傳感技術

定位的傳感技術使用了一些光學的傳感器,使得你能夠清晰地、精確地獲得本身在三維空間中的定位,這個事情是很是重要的。好比說在VR的領域,若是可以很精確地、速度很快地定位到頭盔的位置,那麼當咱們在一個房間或者空間中移動的時候,咱們就能夠更有效地去更新這個畫面的視角,使得VR的體驗更加真實。但怎麼樣把這樣的事情作好,其實今天世界上最成功的技術就利用了一種古老的運算攝影學的原理。

 

從今天來看我最喜歡的VR定位技術,就是一個叫Valve的公司,作的Lighthouse的技術。這個技術受權給了HTC,使得HTC今天虛擬現實的頭盔體驗作的是最好的。它的原理其實就是利用了一個相似於空間編碼的技術,使用一個轉動的激光投影儀,把空間編碼發到空中去,而後用一個Photo Sensor來接收這個信號,把裏面的空間編碼解讀出來,這樣就能夠精確地知道本身的位置。

 

接下來給你們介紹一種很是有趣的成像技術,這種技術是用來觀測空氣的流動,咱們知道大多數空氣是透明的,當它們流動的時候,它們並無影響光線的變化,咱們沒法看到空氣的流動,可是有一種運算攝影學的技術能夠幫你清晰地觀測到空氣的流動,這個技術的名字叫Schlieren Optics

 

你們可能會問這樣的技術有什麼用,當時我在實驗室接觸到Schlieren Optics時,作了一些很好玩的事,好比測量打一個噴嚏到底能夠打多遠,咱們後來發現一個噴嚏有時候能夠達到兩三米遠。這就給咱們一個警示,之後打噴嚏的時候要離人遠一點,把嘴巴擋住。但一些更重要的做用在於工業界能夠用這種技術去分析空氣動力學。

 

 

咱們可能曾經在電視上看到過這樣的廣告,一個跑車公司在展現他們的產品時,會作一個風洞實驗:把這個車放在風洞裏面,而後吹很大的風。這個時候有一我的把一些粉末或者碎紙片撒在氣流裏面,觀測這些小紙片怎麼在汽車的表面翻騰。而後根據粉末或碎紙片的運動狀態來判斷車的表面空氣動力學設計是否足夠好。但這種方法真的是很是很是的低效和很是地原始。今天其實有一些飛機設計公司,已經開始用Schlieren Optics這種原理來觀測他們的空氣動力學。不須要任何的外在物質,只須要這麼一種光學設備就能夠看到空氣自己在飛機表面移動的狀況。甚至如今美國的一些武器公司,在檢測本身設計的子彈,或者一些其餘飛行導彈的衝擊波效果時,就是用這種Schlieren Optics來作的。

 

2. 當今計算機視覺的應用

今天我其實並不想花不少時間去討論具體的算法,計算機視覺這個領域自己就是很是廣袤的,並且在不少領域有很大的深度,因此不可能在這麼短的時間給你們一個有效的歸納。我想重點討論一下應用方面。格靈深瞳自己對安全、汽車、機器人等領域比較感興趣,如今咱們在前三個領域都有一些產品或者是研究的項目在。下面,我將分別地介紹一下咱們對這些領域的觀點和感覺。

 

1) 安全

我說的安全特指的視頻監控。其實安防領域它已經存在了好久,從商業攝像頭存在到如今已經有三四十年的歷史,它其實在八十年代就進入到了安防領域,只不過那個時候是一個奢侈品,如今變成了一個平常必需品了,並且價格也不高。

 

整個安防體系整體來講就四個模塊:攝像頭、傳輸網絡、存儲器、顯示器。你能夠感受到它實際上是一個視頻系統,而不是一個視覺系統。視頻的意思是它最終是給人看的,而視覺是說它是一個視覺信號,能夠被計算機理解。

 

對應到咱們今天的視頻監控產業來講,你會在攝像頭、傳輸網絡、存儲器、顯示器這些環節都找到很是大的市場。去年,中國的安防市場總共有4500億人民幣,實際上是一個比智能手機還要大的產業。但這裏面智能分析是一個很是小的模塊,最重要的緣由就是算法不夠成熟,以及咱們整個安防領域的基礎設施不成熟。

 

今天咱們安防的主要產品形態並無給智能理解留下一個很好的空間,好比說咱們作計算機視覺首先須要接觸到數據,可是今天的安防數據大多數都存儲在一個錄像機裏面,它們能夠是DVR(Digital Video Recorder)或NVR(Network Video Recorder),甚至有些地方還在普遍地使用Analog Video Recorder。那麼像這樣的形態,它的整個體系就不太方便讓一個計算設備把它的數據挖出來,而後去處理。咱們很是但願在將來能有一個更友好的基礎設施出現:全部的攝像頭都鏈接到一個雲上去,在雲上咱們能夠把計算機視覺的算法加載在上面,接觸全部的數據而且分析它們

 

在安防領域最關注的三個物體是車、人、臉。若是咱們能夠把這三個問題研究的很清楚,基本上安防的問題就能夠解決了。還有一些延伸的問題,好比說re-ID(從新識別)。由於咱們今天的攝像頭數量很是巨大,在一些大城市有幾百萬個攝像頭。當一個物體從一個相機轉移到另一個相機的時候,若是你想分析到它廣義的軌跡,必須把一我的在不一樣攝像機拍攝的圖像中,從新識別出來。接下來若是你想了解這個個體的行爲,就必須得了解他具體的姿態、動做。其實還有一種行爲叫作變化檢測,也是很是重要的。

 

然而,在全部這些事情的基礎上,還有一個很是重要的問題須要解決,就是怎麼樣能夠在監控的應用裏面,把一個事物看得很是很是地清楚。咱們曾經有一個公安的客戶,他們拿着一段視頻來給咱們看,這個視頻顯示在一個建築物的門口有一我的走出來,而後就朝着遠離相機的方向離去了。在這個畫面裏面,這我的的高度大概不到10個pixel(像素),就是一點點,你宏觀上能夠判斷出那有一我的,可是至於他長什麼樣子徹底看不清楚。警方來找咱們的目的就是說他們很是肯定這我的是一個很重要的犯罪嫌疑人,可是他們想知道他長什麼樣子,他們惟一的線索就是這個很是模糊的視頻。他們但願咱們可以採用技術的手段,把這個視頻加強,幫助他們更好的理解這個嫌疑人。

 

咱們看完這個數據以後,實際上是沒有辦法幫助他的。若是數據在捕捉的時候就喪失了,後期是沒有任何辦法把它捏造回來的。要想根本地解決這個問題,就要發明出更好的相機,可以在大廣角的狀況下,仍然能夠看到很遠的距離。也就是說它的有效分辨率必須很是很是地高,很不幸的是,今天咱們市面上全部的相機都遠遠的不合格。

 

想象一下,若是咱們有一個高清攝像頭,今天標準高清攝像頭的分辨率是1920×1080的像素,這個分辨率的視頻其實已經很是很是清晰了,數據量也很大。可是若是放在一個監控視角,好比說放在一個相對的廣角(70-80度)下,在這個視覺下,離相機4米遠以外,一我的的臉只可以在一個100×100像素的範圍裏面成像。這個大概是咱們今天作人臉識別最低的要求了,比這個更小的人臉,咱們作人臉識別的效率就會大大地下降。這才4米遠而已,若是這我的站在10米遠、20米遠,甚至是100米遠以外的話,咱們幾乎不可能看清這我的臉。

 

給你們再舉一兩個例子。下面這張照片顯示的就是2013年波士頓馬拉松暴恐案上的兩個罪犯,左上角的監控畫面裏就是這兩個嫌疑人。大家能夠看到這兩我的其實離相機的位置很近,若是大家觀測這個地面的方磚,每一塊方磚的尺度大概是1.2米-1.5米。第一個嫌疑人離相機不過也就是2米的距離,後面這個嫌疑人離相機大概也不超過五六米的距離。在這麼近的距離下,他們的面部徹底沒有達到一個清晰可辨的程度。後來警方沒有辦法,就把這張照片公佈出來,但願民衆提供線索,你們在右上方和左下方看到的就是民衆提供的照片。

 

 

下面這兩張照片就是咱們作的一個小小的實驗。在這個實驗中,咱們使用了佳能的單反相機,這算是市面上質量很是好的相機。咱們把它的分辨率調節到高清的程度,也就是1920×1080,而後請咱們的幾位同事,站在離相機10米遠和30米遠的地方分別拍了一張照片。咱們把這些照片裏面人臉的部分拷貝出來,在這個側面造成了一個影像,大家能夠看到其實這我的離相機10米遠的時候,它的面部在相機裏面只能留下36×36的像素,在30米遠的地方只剩下12×12的像素,這些像素是徹底不足以咱們對人像進行一個比較好的理解跟識別。

 

 

因此,咱們指望將來能夠發明一個相機,幫助咱們更好地解決這類的問題,從信息的源頭就把問題解決掉。

 

2) 汽車

下面我給你們介紹一下自動駕駛汽車相關的計算機視覺技術。今天在市面上存在着不少和智能汽車有關的視覺公司,可是這些公司基本分爲兩類:

 

第一種是ADAS (Advanced Driver Assistant System)技術,就是先進駕駛輔助系統。ADAS的主要功能就是給司機在行駛過程當中提供一些和安全有關的提醒,最主要的做用就是駕駛輔助。它是一個輔助功能,它並不參與駕駛,也不對駕駛負任何責任。

 

第二種是Automatic Driving自主駕駛技術,自主駕駛技術又分爲三種形態:

  • 輔助駕駛(有的時候是人開、有的時候是機器人開)

  • 自動駕駛

  • 無人駕駛

 

自動駕駛和無人駕駛的差異就是汽車裏面到底有沒有人類司機,若是徹底沒有的話,它就是無人駕駛。在應用層面上,無人駕駛能夠進行分享交通的服務,也就是說這個車有的時候能夠爲你服務,有的時候能夠爲他服務。

 

今天在中國有不少不少的ADAS公司,大多數都是一些計算機視覺公司,自動駕駛公司實際上是很是很是少的,大多數也都是一些汽車電子行業有造車能力的公司。以個人理解,嚴格定義來講,今天我聽到的中國作自動駕駛的公司應該只有百度、馭勢科技(格靈深瞳分離出來的新公司),還有就是清華大學的智行者。

 

咱們今天介紹的重點在自動駕駛。在自動駕駛層面上視覺感知的意義是什麼?

 

第一件事情是參與到防碰撞的過程。也就是說它可以檢測出全部可能被碰撞的物體,而後給這個汽車一個安全的決策依據。很幸運的是今天在市場上有一些特別適合作防碰撞的傳感器,好比說激光雷達、毫米波雷達,它們都作得很是好。這裏面有一個很重要的緣由,這些傳感器它的工做原理基本上基於物理檢測,它們把電磁波發出去,而後根據回波來判斷這個障礙物的存在。

 

在馭勢科技,咱們主要是使用一種深度傳感器,可以把全部物體的點雲恢復出來,而後咱們把有可能跟汽車碰撞的那部分點雲呈現給決策系統。也就是說咱們並不去判斷這個物體是什麼,而是把存在感交給決策系統,事實上什麼都不能碰,這就是我對於防碰撞的理解。因此咱們的方案是以物理傳感器爲主,以計算機視覺爲輔,讓他們造成一種相互獨立的互補系統

 

第二件事情是Traffic Understanding,即理解交通裏面有哪些要素。這裏麪包括道路自己的要素,好比說旁邊的路標,它會告訴你這裏該怎麼開,有的時候是單行線、限速、交通燈以及其餘的一些緣由。我我的以爲用計算機視覺去檢測全部的靜態交通單元並非特別好,雖然今天咱們檢測交通標誌以及交通燈的準確度愈來愈高了,可是我仍然以爲像這些信息徹底能夠經過無線傳輸的方式傳給車裏面。

 

將來,在自動駕駛汽車這個領域將會出現一個新的方向叫作「v2i」(vehicle to infrastructure),也就是說將來的汽車會和基礎設施進行通話,在地圖信息裏面會包含全部的路標。每個路燈將來都會經過頗有效的通信方式,把他們的狀態傳遞給汽車。那麼這樣一來汽車只要有效地檢測行人、車輛(汽車、三輪車、自行車)就能夠了,而這個任務其實用今天的深度學習來解決已經效果比較顯著了。

 

 

既然咱們防碰撞已經有了其餘的方法,咱們爲何要檢測這些物體的種類呢?其實這就是跟咱們駕駛的決策息息相關的。好比說在一個十字路口,你的汽車要左轉,那麼按照交通規則你必須讓有路權的車,好比說對面須要直行的車輛。若是激光雷達和毫米波雷達,它們沒有能力去作識別,它只能告訴你,周圍的地形怎麼樣,哪一個地方有一個物體,可是它不能告訴你這個物體是什麼。當這個物體是一輛汽車,或者這個物體是一塊水泥墩的時候,你的駕駛決策是徹底不同的。

 

再好比你開車要路過一個斑馬線的時候,即便這個斑馬線沒有任何物體阻擋,可是若是斑馬線的旁邊站着一個路人,他試圖去過斑馬線的話,按照不少國家的交通規則,咱們是應該讓行人先走的,這個時候就涉及到必須識別出這個物體是一個行人。

 

第三件事情是定位。定位很是重要,由於當你要自主駕駛的話,前提條件就是知道你本身在哪,應該開到哪一個方向去。可是這個定位的要求精度又很高,你必須很詳細地知道你在什麼位置,今天在行業內你們廣泛對於定位的期待是10釐米左右,可是怎麼樣得到10釐米精度的定位結果呢?比較成熟的方法有這麼幾種:

 

  • 第一種是經過高精度的激光雷達來定位。它的基本思路是首先有一個地圖車,把街景所有掃描一遍,獲得這個地區的三維點雲,而後通過必定處理後方便來作匹配。下一次當這個汽車開到這個位置的時候,它用激光雷達掃描出來一個新的三維點雲,而後經過GPS大概獲得本身在一個粗略的方位,這個方位基本上是在100米精度以內的。而後把新的點雲信息跟數據庫裏面的點雲進行一個對比,這個匹配的結果就是定位。這個精度能夠作到比較高,可是這裏面有幾個顯著的問題:

    a. 用來作定位的激光雷達今天還很是很是昂貴,在中國買一個這樣的雷達今天的成本是10萬美圓;

    b. 它的數據量很是大,它的地圖存儲很大,很不方便使用。你能夠想象有一天一輛汽車裝載着全中國全部道路的三維點雲嗎?我以爲這事想一想就挺可怕的。另外,這種場景匹配的過程過多的依賴於整個場景的信息,有些信息是不穩定的。好比說,路旁邊的樹木它在夏天的時候很茂盛,在冬天的時候都枯萎了。包括你在掃地圖的時候可能旁邊有一輛車停着,你下次來的時候這輛車又不在了,這些變化的因素都會給激光視覺定位帶來潛在的噪音。

  • 第二種方式就是使用所謂的差分GPS,也叫GPS RTK。它是一種經過天空的定位衛星,以及地面的定位基站共同輔助的方式來提升定位精度的一種技術。這種技術在條件合適的狀況下精度很是高,甚至能夠達到幾毫米,可是這種技術很是很是昂貴。在今天的中國想要購買一套差分GPS的天線成本也是幾十萬,並且這種技術自己也有缺陷。好比說在隧道里、橋底下、城市的核心區域、被大樓包圍的區域,GPS RTK的信號仍然很不理想。百度公司在去年12月份展出的自動駕駛視頻裏面就採用了這種技術。但他們當時爲了作這個展現,也須要臨時鋪設一些GPS RTK的天線和基站,這種行爲其實不具有可商業化的條件。

     

 

問題就來了,不管你使用激光雷達,仍是使用GPS RTK,每每還要配合一顆精度很是高的慣導,叫Inertial Sensor(INS),這個INS精度高的時候也是貴的不得了,便宜的也要二三十萬,我據說有一些創業公司但願可以把這種傳感器的成本大大下降,好比說下降5倍,那也要好幾萬,因此我以爲這些方法都不具有可商業化的可能性。

 

因此計算機視覺在這個時候的重要性就體現出來了。你們思考一個問題,是否是有一天咱們能夠用計算機視覺就可以完成精度很高的全局定位?若是這件事情能夠作到的話,我以爲它的意義很是大,遠遠比作防碰撞要重要的多。

 

今天咱們在機器人視覺裏面作定位的視覺技術,好比說visual slam、visual odometry這些技術,在一個小的範圍內用的還不錯。可是當咱們在世界範圍使用的時候,好比說咱們想象一下如何運用visual slam的技術,使其在全中國全部的道路適用。我以爲咱們過去的算法都是不可靠的,今天格靈深瞳也在研發相關的技術,咱們但願咱們將來能夠實現這個目標,我我的認爲這是咱們對無人駕駛技術最大的貢獻。

 

3) 機器人

最後咱們就移步到機器人的話題,其實自動駕駛汽車自己就是一種機器人。這裏的機器人特別指的是服務型機器人,那種在家庭、辦公室、餐廳、酒店等真實世界裏面跟更多大衆打交道的移動機器人。在這種機器人裏面核心的視覺問題其實跟汽車也差很少,它也包括防碰撞、定位技術,由於只有定位之後你才能夠去作導航,可是更重要的是它必須有很好的交互能力。由於機器人要跟人打交道,要服務於人,因此它必須可以觀察人、引導人、跟隨人、瞭解人,而且識別出每個人的個體,弄清楚誰是你應該服務的對像,誰是主人。

 

 

理想的機器人須要具有很強的視覺能力,它可以在空間中對這個環境作很是好的分析和定位,它可以很靈活地移動,它可以跟人甚至跟寵物在一塊兒交互、玩耍,它可以識別出姿態、手勢、面部等等信息,固然它還有語音識別的能力。咱們很是期待將來服務機器人可以愈來愈聰明,由於今天我看到的大多數服務機器人仍然很是地笨拙。

 

 

-END-

相關文章
相關標籤/搜索