大規模數據如何實現數據的高效追溯？

摘要：利用華爲雲GES分析，如何基於GES圖數據庫追溯服務的實現和優化。

「一分鐘，我要這我的的所有信息」，霸道總裁拍了拍你，並提出這個要求。祕書開始發力，找到了：姓名、年齡、聯繫方式、愛好，這些信息。不太夠？那就再加上親朋好友信息，近期活動信息，更完整展示這我的。雖然是個段子，但也給與咱們一些啓示：對象自己的信息可能不夠「全」，周邊關聯的數據也是對象信息的重要組成，這些關聯數據對在進行數據分析和挖掘時十分有用。html

現實生活中關聯關係十分廣泛，好比人的社交、商品生產和消費行爲之間都是關聯關係。數據分析時，爲了更好的利用關聯關係，常使用圖做爲數據結構，使用圖結構保存數據的數據庫被稱爲圖數據庫。傳統的關係型數據庫，以表格視角對數據進行呈現，能夠方便的對數據進行查詢管理，而圖數據庫更關注節點和周邊節點的聯繫，是一種網狀結構，適用於追溯分析、社交網絡分析、異構信息挖掘等等應用。華爲雲提供的圖數據庫服務就是GES（Graph Engine Service）[1]。算法

基於圖數據庫能夠作不少有趣的應用，數據追溯就是一個很常見的應用。數據追溯，就是把各環節產生的數據進行關聯與溯源。疫情中，查看商品的流經過程，檢查商品是否有可能有接觸傳染源。測試活動中，經過構建測試過程網絡，分析測試活動的完備性，用於進行質量評估。這些都是追溯的典型使用場景。若以傳統關係型數據庫構建數據追溯，須要獨立構造和維護多個關係表，並實現多對多的關係網絡，不易於理解複雜的業務邏輯，與此同時，也會伴隨着追溯查詢實現複雜和查詢緩慢的問題。數據庫

圖1 關係型數據庫和圖數據庫對比apache

用一個例子簡單說明圖數據庫在數據分析領域的優點。圖1是一個簡單的選課系統，記錄了學生選課以及相應的課程信息。如右圖所示，咱們根據圖數據庫的表達方式把這些信息轉化爲一張圖。能夠看出，圖能夠更加直觀地表達選課和班級等關係，清楚地呈現實體之間的關係，更方便進行關聯分析。好比，根據圖咱們能夠很容易找到和小布一塊兒上數學課的同窗，也能夠快速找到選課興趣相同的同窗。經過圖數據庫能夠很方便查詢到周邊節點信息，很是適用於追溯實現。那如何基於圖數據庫如何實現追溯服務？接下來咱們將以華爲雲GES爲例，分析基於GES圖數據庫追溯服務的實現和優化。網絡

什麼是圖

在圖數據庫中，圖由如下部分組成：數據結構

點：圖中的實體對象，在圖中表現爲一個節點。例如，社會的人，流通的商品等均可以抽象爲圖中的一個節點。
邊：圖中節點與節點之間的關係。如人與人的社會關係，商品的購買行爲等。
屬性：用於描述圖中節點或者邊的屬性，好比編號、名稱等。聚類和分類分析中，權重是經常做爲關係屬性，也就是邊的屬性。

圖2 有向圖與無向圖性能

根據邊是否有方向，能夠把圖分爲有向圖和無向圖。對於有向圖來講，邊的起點和終點是肯定的。圖2中，城市是一個節點，城市間的距離和城市之間交通方式爲邊。城市交通就是一個有向圖，不一樣方向交通方式用不一樣的邊表示，而城市間距離是無向圖，由於距離和方向無關。GES使用時，須要將點和邊處理成不一樣的對象，點邊都須要定義須要的屬性。點主要就是包含實體的信息，而邊須要指定起點與終點。測試

定義GES圖

GES創建圖的步驟能夠參考官方文檔[1]。主要就是對節點和邊進行定義，將數據處理爲點和邊文件，最後導入GES中，可經過界面或API導入。處理無向圖時，即不區分邊的起點和終點，一般也會設定一個默認方向，即指定邊的起點和終點，這是爲了處理和導入數據方便，在實際查詢中能夠忽略這種方向設定。優化

在GES構建圖的過程當中，定義點和邊以及相關屬性的文件被稱爲元數據。點和邊的類型被稱爲label，每一個label可具備多個屬性，如上文提到的名稱、權重等，均可以做爲點或邊的屬性。在GES中，label一旦定義並建立成功將不被容許修改，若是必需要修改label定義，就須要格式化圖並從新建立導入元數據文件到圖中。url

節點一般是由現實中的實體抽象而來，GES節點屬性經常使用的數據結構包含了float、int、double、long、char、char array、date、bool、enum和string等。一般來講節點中，字符串類型的屬性較多，非字符串屬性能夠根據數據類型進行選擇。字符串類型有兩個選擇：string和char array。char array有數據長度限制，一般爲256，而string類型沒有長度限制。可是在GES中使用char array更有優點，這是由於char array數據存放在內存中，string類型數據存放在硬盤中，所以char array查詢效率更高，這也是GES元數據定義須要注意的地方。在咱們項目的場景中，節點的名稱和編號都是經常使用的查詢條件，綜合考慮屬性特徵，如節點名稱較長而節點編號較短，最終名稱使用了string類型，而編號選擇了char array類型。

GES查詢優化

定義好節點信息後，能夠在圖中進行查詢。GES使用的是Gremlin[3]進行查詢。Gremlin是一個開源的流式查詢語言，查詢實現靈活，不一樣圖數據庫對查詢語句的分解以及優化處理都不相同，所以，不一樣的寫法可能查詢效率可能不一樣。接下來咱們就一種追溯查詢場景進行分析。

圖4 多分支查詢場景分析

如圖4所示，字母表明label，也就是一種節點類型。能夠看到該場景具備較多查詢分支，按照圖中的節點要求，Gremlin查詢語句直接實現以下：

g.V(id).hasLabel('A').ouE().otherV().hasLabel('B').ouE().otherV().hasLabel('C').as('c').outE().otherV().hasLabel('F').outE().otherV().hasLabel('H').select('c').outE().otherV().hasLabel('D').as('d').outE().otherV().hasLabel('G').select('d').outE().otherV().hasLabel('H')

基於當前Gremlin，GES Gremlin server會將查詢分解爲多個查詢原子操做，並由GES engine·執行。對於這種多跳的複雜查詢，會解析爲較多的原子操做並頻繁交互，這會致使的查詢效率低下。對於這種場景，考慮使用optional語句進行查詢，效率會獲得提高。查詢語句以下：

g.V(id).hasLabel('A').ouE().otherV().hasLabel('B').ouE().otherV().hasLabel('C').as('c').optional(outE().otherV().hasLabel('F').outE().otherV().hasLabel('H')).optional(select('c').outE().otherV().hasLabel('D').as('d').optional(outE().otherV().hasLabel('G')).optional(select('d').outE().otherV().hasLabel('H')))

optional在必定程度上能夠下降分支的查詢範圍，從而提高查詢效率。在項目實際使用中，使用optional能夠提高查詢性能1倍左右。可是optional不是全部場景都適用，Gremlin實現須要根據查詢場景、數據規模和數據特色進行優化處理，例如圖中節點的稀疏程度和分支的數量都是能夠考慮優化的點。

在對GES查詢優化時，即便對Gremlin語句進行了優化，也有可能達不到指望的查詢性能。這是由於使用Gremlin時，處理查詢過程當中Gremlin server解析後的原子操做可能會和GES engine頻繁交互，反而會下降查詢性能，並且針對Gremlin查詢優化處理範圍也有限。雖然Gremlin是圖數據庫通用的查詢腳本定義方式，可是各個廠家對於Gremlin腳本優化處理不一樣，所以更推薦使用GES原生API。原生API針對固定場景作了更多的優化，而且減小了Gremlin解析處理過程，所以性能更優，但同時也引入了通用性和效率之間的平衡問題，畢竟API沒有通用的定義實現。

下面咱們將介紹幾種常見的追溯查詢場景。這些場景均可以經過Gremlin查詢實現，可是若是經過使用GES系統API，能夠獲取更好的查詢性能。

場景(1) 追溯某個節點前（後）n層節點

該查詢較爲常見，主要用於查詢某個節點的父子節點，對於圖1 的場景能夠找到班級的全部同窗，該場景Gremlin實現以下：

g.V(id).repeat(out()).times(n).emit().path()

這種場景下，推薦使用GES算法文檔中的k-hop算法解決該問題，須要注意，這個算法接口只會返回知足查詢條件的子圖中的全部點，但沒有節點詳情和邊信息，若是須要節點詳情能夠採用batch-query批量進行節點詳情查詢。若是須要邊信息，推薦場景(2) 使用的API。

場景(2) 按條件追溯某個節點以前（後）n層節點，節點篩選條件相同

g.V(id).repeat(outE().otherV().hasLabel('A')).times(n).emit().path()

這種場景下，推薦使用repeat-query方法。該方法能夠快速實現某個起點先後n跳查詢，而且能夠限定節點查詢條件，而且全部點的查詢過濾條件相同。在查詢中，若是不一樣的點須要使用不一樣的查詢條件進行過濾，能夠先不指定點查詢條件，待返回查詢結果後再進行過濾。不指定點的查詢場景能夠退化爲場景(1)，而且該API能夠同時返回節點和邊的詳情。

場景(3) 按條件追溯某個節點以前（後）n層節點，不一樣節點篩選條件不一樣

圖4的例子就是一個這樣的場景，每層的查詢label不一樣。這種狀況下，推薦使用filtered-query進行查詢，該方法須要詳細指定每一個節點的過濾屬性，至關於將每一個查詢條件都在參數中一一指定，實現徹底知足條件的查詢。項目中，相對於Gremlin 查詢，filtered-query的查詢性能能夠提高10倍左右。

上述三個場景中repeat-query和k-hop具備更好的泛化能力，能夠隨意指定查詢跳數n，須要設定的參數簡單。而filtered-query須要詳細指定查詢中每層節點的屬性，參數較爲複雜，具體使用中能夠根據業務需求進行選擇。

GES還提供了不少算法，如Node2vec, subgraph2vec，GCN算法，本文只介紹了基於GES進行節點快速查詢並提供追溯服務，後續也會考慮如何基於創建好的圖，進行一些數據節點融合，也能夠進行類似度分析、質量評估和流程推薦等，更好地挖掘數據的價值。

【參考資料】

華爲雲GES服務用戶指南https://support.huaweicloud.com/usermanual-ges/ges_01_0002.html
圖引擎（GES）業務面API參考-V3.0
Gremlin官方文檔：https://tinkerpop.apache.org/docs/3.3.11/

點擊關注，第一時間瞭解華爲雲新鮮技術~