高德SD地圖數據生產自動化技術的路線與實踐（道路篇）

時間 2020-05-26

標籤地圖數據生產自動化技術路線實踐道路简体版

原文原文鏈接

1、背景及現狀算法

近些年，國內道路交通及相關設施的基礎建設突飛猛進。廣大用戶平常出行需求旺盛，對所使用到的電子地圖產品的數據質量和現勢性提出了更高的要求。傳統的地圖數據採集和生產過程，即經過採集設備實地採集後對採集資料進行人工處理的模式，其數據更新慢、加工成本高等問題矛盾日益突顯。網絡

高德地圖憑藉視覺AI和大數據技術優點引領地圖數據產業變革，經過圖像AI技術從採集資料中直接識別提取各種數據要素，爲實現機器代替人的做業模式提供最堅實的技術基礎。工具

高德地圖經過對現實世界高頻高密度的數據採集，運用圖像視覺AI能力，在海量的採集圖片庫中自動檢測識別並肯定出各類交通標誌標線標牌的內容及位置，再經過與歷史資料信息的對比，能快速發現現實世界的變化信息，同時結合強大而專業的數據融合能力，實現100%信息融入，從而構建出高現勢性的全國基礎地圖。學習

綜上，經過算法、地圖工程的深度技術合做，以及與資料採集、數據生產的業務拉通，搭建一條以圖像識別、位置服務、差分過濾、數據融合等爲核心技術的基礎地圖數據生產全自動化產線，從而創建起從真實世界到地圖應用終端，高效高質量的數據信息流水線生產通道。大數據

2、自動化產線的可行性及重點spa

從圖像物體分類和檢測進展來看，圖像物體的分類和檢測已經有幾十年的歷史，涌現了一系列經典的算法。近些年隨着圖像識別技術特別是深度學習技術的快速發展及GPU計算能力的發展，分類和檢測技術有了極大的提高。對象

從自動化須要的大數據來看，高德地圖專一地圖數據製做十幾年，積累了覆蓋全國、豐富且準確的數據，加之天天擁有大量採集信息的匯入，這些數據都成爲算法訓練自然的樣本池；同時一整套專業化、標準化的地圖生產做業規範爲數據融合打下了堅實的理論基礎。blog

所以，從算法儲備能力、數據和工藝的積累來看，自動化產線搭建具備較強的可行性，其重點圍繞着如下四部分組成：圖片

圖像識別：圖像識別的目標是從輸入圖像中解析出地圖數據相關的現實信息，經過檢測、識別圖片中的交通標誌標線標牌信息，細分其類型，並理解其中的數字和文字，以文本形式表達內容。此外，因爲輸入的是連續圖像，單個標誌標線標牌能夠在多個圖像上觀察到，所以整合多張圖像中的同一信息，並選擇最合適的圖像做爲主圖展現。rem

位置服務：基於低精度GPS和採集圖像，位置服務推算出自身和場景物體的精確位置，並映射到地圖數據中。其中包括圖像道路理解、標誌位置解析、採集軌跡匹配等核心能力。依據軌跡特性和道路連通性，創建對定位位置、角度、速度等與候選道路關係的匹配機率模型，將軌跡關聯到地圖數據上。經過對多張圖片中場景的理解，給出圖片相對於路口的相對位置，結合地圖道路數據的形態，進一步肯定物體的做用位置。

圖像差分和語義過濾：目的是將新採集資料與已有母庫中的數據進行一致性對比，自動將相同的信息進行差分與過濾操做，留下變化的信息。二者不一樣之處在於前者是檢測相同位置新一次採集的圖片相對於歷史採集圖片是否有變化，從軌跡和圖像自己的角度對比；後者從數據的角度看圖像識別後內容，對於母庫數據是否有變化，從地圖語義的角度作比較。

基於位置的數據融合：圖像識別的成果，結合位置服務提供的做用位置，獲取到做用道路。經過抽象路口的模型，在該道路或路口作數據融合，即新增或者更新地圖數據。

3、關鍵技術能力

1.圖像識別

圖像識別主要面臨三大挑戰：一方面場景多樣，類型繁多。待檢測對象種類繁多，如交通標誌標牌、地面引導線、電子眼等。好比正常的方向信息標牌以下圖：

特殊的方向信息牌標牌：

而同類檢測對象的樣式也是繁雜的，國標通用的交通標誌有幾百個類型，而各地也會有一些地方特點的交通標誌，因此需支持定製化檢測識別。常見標牌形狀多樣，三角、圓形、方形、菱形、八邊形等，同時顏色分佈普遍，如黃色、紅色、藍色、綠色、黑色、白色等，另外，還須要排除天然場景內一些相似交通標誌的標語、廣告牌等，以減小對識別準確率的影響。

另外一方面，在天然場景下圖片質量差別巨大，其中不少圖像質量偏低。再加上面臨遮擋、逆光、雨雪天等極端戶外場景。這些在檢測環節都是要重點考慮及解決的問題。

最後，待檢測對象的尺寸差別較大，大如方牌（幾百個像素大小），小如電子眼、交通燈（十幾個像素大小）。而小尺度檢測，辨識度不好，對檢測算法有比較高的要求。

綜上，對於算法能力自己而言，交通標誌檢測其實是一個多類型的目標檢測任務，主流的方法是基於深度學習的End2End方案，在一個網絡中同時完成檢測與細分類任務。經常使用的dataset通常是PASCAL VOC(20類)和COCO(90類)等。

根據業務的實際須要，整個方案分爲目標檢測與精細分類兩部分組成，目標檢測階段經過Faster-RCNN在圖片中檢測全部的交通標誌，該階段要求極高的召回率和執行速度，相應在準確率方面能夠放寬要求；精細分類階段對目標檢測階段獲得候選框，而後進行精細分類並濾除噪聲，最終保證極高的召回率和準確率。

2.位置服務

軌跡漂移對位置匹配地圖的準確性一直都是極大的挑戰，一方面平行路、高架場景，尤爲是主輔路這種距離1-2個車道的平行路，須要很高的定位精度，常規的GPS定位精度在5-10m，很難達到80%的主輔路識別率。另外基礎地圖數據自己也存在GPS精度問題。

經過規則及隱馬爾科夫模型的學習、推理以及維特比算法等基礎理論之外，合理地抵抗定位漂移問題，是軌跡匹配成功的關鍵。經過對軌跡形態進行學習和總結，找出其規律，創建符合其特性的機率模型，精準地表達匹配創建過程，合理地平衡匹配準確性和抗漂移能力兩者之間的關係。另外，經過長軌跡的連通性和圖像識別車道數或道路位置關係，以解決平行路的部分場景的問題。

而對做用道路和做用位置的肯定，目前依賴於圖像識別對於路口位置的識別及融合對地圖數據場景的理解和判斷，例如標牌對路或路口的相對位置靠識別自己很難肯定，須要融合對數據路網數據特性的理解和判斷，這種判斷比較複雜，人一眼就看明白了，可是機器很難用規則去描述。因此，經過路段中直行、路口中直行及拐彎等場景的分析，對比地圖路段或路口的模型，來肯定做業道路，根據不一樣屬性計算做用位置。

3.圖像差分和語義過濾

圖像差分主要會面臨資料對齊問題，即同一位置的屢次採集資料，會受GPS自身精度及因衛星信號遮擋致使的漂移帶來的所在道路判斷誤差的影響。另外，在語義識別上，受天然環境下的環境因素，如遮擋、模糊、陰影、雨雪天氣、視角變化等，會影響後續算法對圖像的深層語義信息(如類型、內容等)的解析。兩種因素的疊加，在多張圖像和語義的一致性比對時，難度就提升了很多。

這方面，算法大幅快速提高了識別和一致性判斷的準確率，以免錯誤匹配對數據更新的影響。圖像差分分爲資料對齊和局部匹配兩部分，資料對齊回答兩次採集圖像是否在同一位置、視角等，經過GPS軌跡粗篩、圖像匹配等手段，判斷兩張圖像的位置關係。局部匹配則須要回答兩個物體是否爲同一類型，對於有文本內容的物體，還須要檢測版式、文本的一致性。所以除引入常見的點特徵匹配技術外，也使用了基於深度學習的圖像匹配網絡。對於文本內容部分，藉助OCR能力完成內容的理解和解析，最終判斷兩次採集的內容徹底一致性。

4.基於位置的數據融合

因爲現實世界的複雜性，地圖生產經驗積累造成了大量標準化地圖數據製做規範，這些都是能合理抽象、準確表達現實世界的無形資產。即使現實路網形態千奇百怪，但都能經過模型進行抽象歸類，創建不一樣場景下相對通用的地圖數據模型，從而在其上創建沉澱大量的地圖數據處理的工具類和方法，以確保數據自動化融合能力的普遍使用。

4、總結

高德SD基礎地圖數據生產自動化實現，本質上就是在基礎地圖數據生產過程當中，引入圖像AI技術和數據融合技術，結合多年地圖數字化生產做業規範及經驗，創新出一套面向資料的自動化生產線，造成自動化解放人工持續提供高效高質量的地圖數據，以解決地圖供應商生產產線專業化程度高、人工成本大、做業效率低等產線問題，最終知足廣大用戶出行過程對電子地圖產品數據現勢性的需求。