空間搜索(圓範圍)中Geohash編碼方案和格網編碼方案對比探討

文章版權由做者李曉暉和博客園共有,若轉載請於明顯處標明出處:http://www.cnblogs.com/naaoveGIS/html

1.背景

多個項目中實現範圍(圓)搜索的方案爲:依賴庫表中的X和Y字段構造一個矩形查詢範圍,再經過幾何計算範圍中的數據到指定座標的距離是否在閾值半徑中,最後返回閾值中的數據。
該方案有幾個優勢:算法

  • 無需對數據預處理,僅經過sql就能夠實現,實現方式簡單。
  • 數據庫環境中,經過數字搜索比經過字符串搜索效率更高,佔用的CPU更少。

可是,該方案在表數據量龐大的狀況下,經過X和Y兩個字段,而且有四個查詢條件,對性能有必定損耗。
在以前我寫過一篇關於Geohash編碼研究的文章WebGIS中GeoHash編碼的研究和擴展,這裏提到了一種將X和Y以哈夫曼原理編碼成一維字符串的方案。那麼這裏若是咱們使用geohash編碼方案來優化查詢效率是否有用?sql

2.基於GeoHash編碼的範圍查詢

2.1須要解決的點

  • 基於GeoHash編碼原理,將編碼對象從經緯度數據擴展到也支持平面座標數據
  • 因爲編碼值對應的是一個範圍,若是查詢座標落入在範圍的角落,僅經過相同字符串匹配可能致使查詢結果不全,這裏須要重構查詢範圍
  • 根據查詢的容差範圍,能夠計算出該範圍所對應的geohash字符串位數

2.2解決思路

  • 針對平面座標:將編碼範圍改變成該地圖平面座標真實範圍,基於哈夫曼編碼規則進行計算,最後使用base32編碼成字符串。
  • 針對查詢範圍:以查詢點爲中心經過查詢範圍構造出查詢範圍矩形,利用目前查詢範圍所對應的hash編碼長度所對應的精度,利用該精度將矩形進行切割,而後對格網分別編碼。
  • geohash長度所對應的真實精度:基於編碼規律,經度的bit長度能夠爲奇偶,可是緯度的bit長度必須是偶數,反算出經度和緯度的bit長度。而後根據經緯對範圍,結合各方向的二分法次數(bit長度),便可算出經緯度此時的精度。

2.3方案實現

這裏重點給出查詢搜索代碼,即經過hash長度對應的精度、查詢範圍參數,進行網格切分和編碼。數據庫

/*** * 經過傳入指定範圍、指定座標、查詢範圍和geohash長度,返回查詢範圍中對應的全部geohash編碼 * @param minX * @param minY * @param maxX * @param maxY * @param X * @param Y * @param geohashLength geohash字符串編碼長度 * @param searchRange 查詢範圍,若是是平面座標系100M則傳入100,經緯度座標系0.0001度則傳入0.0001 * @return */ public static List<String> GeoHashSearch(double minX, double minY, double maxX, double maxY, double X, double Y, int geohashLength,double searchRange){ List<Integer> latLngLength = SetHashLength(geohashLength); double boundMinX = X - searchRange; double boundMaxX = X + searchRange; double boundMinY = Y - searchRange; double boundMaxY = Y + searchRange; List<Double> range = GetGoeHashRange(minX, minY, maxX, maxY, latLngLength.get(0), latLngLength.get(1)); List<String> searchResult= new ArrayList<String>(); double xrange = range.get(0); double yrange = range.get(1); double value = 0.5; for (int i = 0; boundMinX + (i - value) * xrange <= boundMaxX; i++) { for (int j = 0; boundMinY + (j - value) * yrange <= boundMaxY; j++) { String geohashCode = Encode(minX, minY, maxX, maxY, boundMinX + i* xrange, boundMinY + j * yrange, geohashLength); if (!searchResult.contains(geohashCode)) { searchResult.add(geohashCode); } } } return searchResult; }

2.4優缺點探討

2.4.1優勢

  • geohash編碼經過不斷的二分,若是有必要能夠直接將精度編碼至釐米或毫米級別,而且對應的編碼長度不會特別長。好比,當經緯度座標系下,即便座標範圍用全球範圍(-90到90,-180到180),其釐米級的編碼長度也不長。如下是此時的長度精確表: 

2.4.2缺點

  • 高精度編碼無法使用:雖然精度到釐米編碼長度也不長,可是當查詢範圍是1Km例如,此時編碼長度只須要到2位,而查詢卻必須使用like去匹配,此時查詢效率反而過低。
  • 不一樣編碼長度間跨越的精度太大:好比,查詢1000M和查詢2000M範圍所對應的編碼長度可能都是2,這樣致使查詢的結果的個數(格網切分)可能特別多。那麼此時即便對編碼字段作了索引,也不必定會產生實際效果(若是使用In則索引無效,而使用OR,查詢條件又過多影響sql解析等)。
  • 編碼爲字符串影響查詢效率:geohash編碼的結果是基於Base32規範進行結果編碼,爲字符串,影響數據庫查詢效率。

2.5 換一種思路

geohash編碼因爲隨着地圖範圍不一樣各編碼長度精度沒法肯定、編碼只能以字符串存儲等問題,在咱們的業務場景上沒法使用。那麼,若是咱們讓編碼精度肯定、編碼能夠用數字替代,是否就能夠達到業務場景的須要呢?服務器

3.基於格網編碼的範圍查詢

3.1算法介紹

格網劃分算是GIS算法中的萬金油。之前博客中寫過的空間索引、地理插值、影像金字塔、矢量切片等等都可以基於格網的思路去探索。這裏,一樣能夠利用格網算法來進行編碼。微信

3.1.1基本算法

  • 將地圖的左上角座標當作原點,設定好格網的長度(X方向和Y方向)
  • 傳入座標,計算座標分別在X方向和Y方向離座標原點的格網個數,分別爲xNum、yNum
/*** * 經過傳入地圖起始點,待編碼座標,編碼的X和Y方向精確度,獲取網格編碼字符串 * @param minX 地圖起始點X座標 * @param minY 地圖起始點Y座標 * @param X * @param Y * @param gridXSize X方向精確度。平面座標爲M,經緯度座標爲度 * @param gridYSize Y方向精確度。平面座標爲M,經緯度座標爲度 * @return */ public static long GetGridCode(double minX, double minY, double X, double Y, double gridXSize,double gridYSize){ if (X < minX || Y < minY){ return -1; } int xNum = (int)Math.ceil(Math.abs(X - minX) / gridXSize); int yNum = (int)Math.ceil(Math.abs(Y - minY) / gridYSize); return CreateLongCode(xNum,yNum); }

3.1.2編碼優化

若是咱們須要將編碼轉換成數字編碼,那麼咱們一樣須要設定一種規則。這裏,我規定xNum和yNum都必須是八個字符串長度,不足的在前綴以0補充,最後再合併轉換成整數。(注意,這裏我設計以0做爲前綴而不是後綴補充,是爲了及時轉換成數字後,之後能夠經過數字將編碼反轉換爲空間範圍)性能

/*** * 以8位數和8位數分別將col和row填充組合成一個整數 */ private static long CreateLongCode(int x,int y){ String sx=String.valueOf(y); String sy=String.valueOf(y); for(int i=sx.length();i<XLen;i++){ sx="0"+sx; } for(int j=sy.length();j<YLen;j++){ sy="0"+sy; } String scode=sx+sy; long code=Long.parseLong(scode); return code; } /*** * 獲取網格編碼所對應的真實地理範圍 * @param minX * @param minY * @param value 編碼值 * @param gridXSize X方向精確度。平面座標爲M,經緯度座標爲度 * @param gridYSize Y方向精確度。平面座標爲M,經緯度座標爲度 * @return */ public static List<Double> Decode(double minX, double minY, long value, double gridXSize,double gridYSize){ String svalue=String.valueOf(value); String sx=svalue.substring(0,svalue.length()-YLen-1); String sy=svalue.substring(svalue.length()-YLen); int xnum=Integer.parseInt(sx); int ynum=Integer.parseInt(sy); double boundMinX = minX + (xnum - 1) * gridXSize; double boundMaxX = boundMinX + gridXSize; double boundMinY = minY + (ynum - 1) * gridYSize; double boundMaxY = boundMinY + gridYSize; List<Double> bound = new ArrayList<Double>(); bound.add(boundMinX); bound.add(boundMinY); bound.add(boundMaxX); bound.add(boundMaxY); return bound; }

3.2範圍查詢

一樣,這裏也須要考慮與geohash查詢時同樣的狀況:優化

  • 查詢XY落在網格的邊角上
  • 查詢範圍閾值大於網格大小 解決思路與以前相同:
/*** * 經過傳入地圖起始點、網格X和Y方向精確度、查詢範圍和查詢點,返回對應查詢範圍內全部網格編碼 * @param minX * @param minY * @param X * @param Y * @param gridXSize X方向精確度。平面座標爲M,經緯度座標爲度 * @param gridYSize Y方向精確度。平面座標爲M,經緯度座標爲度 * @param range 查詢範圍,平面座標爲M,經緯度座標爲度 * @return */ public static List<Long> GridCodeSearch(double minX, double minY, double X, double Y, double gridXSize, double gridYSize,double range){ if (X < minX || Y < minY){ return null; } double boundMinX = X - range; double boundMinY = Y - range; double boundMaxX = X + range; double boundMaxY = Y + range; double value=0.5; List<Long> searchResult = new ArrayList<Long>(); for (int i = 0; boundMinX + (i - value) * gridXSize <= boundMaxX; i++){ for (int j = 0; boundMinY + (j - value) * gridYSize <= boundMaxY; j++){ long gridCode = GetGridCode(minX, minY, boundMinX + i * gridXSize, boundMinY + j * gridYSize, gridXSize, gridYSize); if (!searchResult.contains(gridCode)){ searchResult.add(gridCode); } } } return searchResult; }

3.3格網劃分的一點建議

  • 格網不宜劃分過小,建議劃分的比查詢範圍大,這樣保證範圍過濾查詢時返回的匹配格網編碼少。好比,格網大小500M,查詢範圍100M,查詢時,在多數狀況下將只返回一個編碼。固然,此時基於該編碼去數據庫中查詢,將獲得更多的數據點,因而須要咱們作精確的範圍計算量變大。可是:將數據庫壓力適當轉移到服務器計算是一種更划算的策略。固然,格網劃的太大,也會拔苗助長,建議通用查詢範圍一兩倍便可。

4.後續方案描述

  • 座標存入時,將座標基於格網編碼並同步存入到指定字段,對該字段創建索引(此時字段爲長度大於16的長整型)。
  • 查詢時,調用編碼查詢接口,獲取到該XY以及查詢範圍下,對應的網格編碼。在數據庫中利用這些編碼作匹配查詢(粗過濾)。對返回的結果進一步作精確範圍匹配(精過濾可作可不作,視需求規格而定)。

                      

                          -----歡迎轉載,但保留版權,請於明顯處標明出處:http://www.cnblogs.com/naaoveGIS/編碼

                                                                            若是您以爲本文確實幫助了您,能夠微信掃一掃,進行小額的打賞和鼓勵,謝謝 ^_^spa

                                                          

相關文章
相關標籤/搜索