美團圖數據庫平臺建設及業務實踐

本文爲 #nLive vol.001｜美團圖數據庫平臺建設及業務實踐# 主題演講的文字稿，可前往 B站觀看本次視頻git

你們好，我是來自美團的趙登昌，今天我給你們分享下美團圖數據庫平臺的建設以及業務實踐。github

這是本次報告的提綱，主要包括如下六方面內容。算法

背景介紹

首先介紹下美團在圖數據方面的業務需求。數據庫

美團內部有比較多的圖數據存儲以及多跳查詢需求，整體來講有如下 4 個方面：安全

第一個方面是知識圖譜方向，美團內部有美食圖譜、商品圖譜、旅遊圖譜在內的近 10 個領域知識圖譜，數據量級大概在千億級別。在迭代、挖掘數據的過程當中，須要一種組件對這些圖譜數據進行統一管理。微信

第二個方面是安全風控。業務部門有內容風控的需求，但願在商戶、用戶、評論中經過多跳查詢來識別虛假評價；在支付時進行金融風控驗證，實時多跳查詢風險點。網絡

第三個方面是鏈路分析，好比說：數據血緣管理，公司數據平臺上有不少 ETL Job，Job 和 Job 之間存在強弱依賴關係，這些強弱依賴關係造成了一張圖，在進行 ETL Job 的優化或者故障處理時，須要對這個圖進行分析。相似的需求還有代碼分析、服務治理等。架構

第四個方面是組織架構管理，包括：公司組織架構的管理，實線彙報鏈、虛線彙報鏈、虛擬組織的管理，以及商家連鎖門店的管理。好比，須要管理一個商家在不一樣區域都有哪些門店，可以進行多層關係查找或者逆向關係搜索。併發

整體來講，咱們須要一種組件來管理千億級別的圖數據，解決圖數據存儲以及多跳查詢問題。負載均衡

傳統的關係型數據庫、NoSQL 數據庫能夠用來存儲圖數據，可是不能很好處理圖上多跳查詢這一高頻操做。Neo4j 公司在社交場景作了 MySQL 和 Neo4j 的多跳查詢性能對比，具體測試場景是，在一個 100 萬人、每一個人大概有 50 個朋友的社交網絡裏找最大深度爲 5 的朋友的朋友。從測試結果看，查詢深度增大到 5 時， MySQL 已經查不出結果了，但 Neo4j 依然能在秒級返回數據。實驗結果代表多跳查詢中圖數據庫優點明顯。

圖數據庫選型

下面介紹咱們的圖數據庫選型工做。

咱們主要有如下 5 個圖數據庫選型要求

A. 項目開源，暫時不考慮須要付費的圖數據庫；
B. 分佈式的架構設計，具有良好的可擴展性；
C. 毫秒級的多跳查詢延遲；
D. 支持千億量級點邊存儲；
E. 具有批量從數倉導入數據的能力。

咱們分析了 DB-Engine 上排名 Top30 的圖數據庫，剔除不開源的項目後，把剩下的圖數據庫分紅三類。

第一類包括 Neo4j、ArangoDB、Virtuoso、TigerGraph、RedisGraph。此類圖數據庫只有單機版本開源可用，性能比較優秀，可是不能應對分佈式場景中數據的規模增加，即不知足選型要求 B、D；
第二類包括 JanusGraph、HugeGraph。此類圖數據庫在現有存儲系統之上新增了通用的圖語義解釋層，圖語義層提供了圖遍歷的能力，可是受到存儲層或者架構限制，不支持完整的計算下推，多跳遍歷的性能較差，很難知足 OLTP 場景下對低延時的要求，即不知足選型要求 C；
第三類包括 Dgraph、Nebula Graph。此類圖數據庫根據圖數據的特色對數據存儲模型、點邊分佈、執行引擎進行了全新設計，對圖的多跳遍歷進行了深度優化，基本知足咱們對圖數據庫的選型要求

以後咱們在一個公開社交數據集上（大約 200 億點邊）對 Nebula Graph 、Dgraph 、HugeGraph 進行了深度性能測評。主要從三個方面進行評測：

批量數據的導入
實時寫入性能測試
數據多跳查詢性能測試

測試詳情見 Nebula 論壇：主流開源分佈式圖數據庫Benchmark 🔗

從測試結果看 Nebula Graph 在數據導入、實時寫入及多跳查詢方面性能均優於競品。此外，Nebula Graph 社區活躍，問題的響應速度快，因此團隊最終選擇了基於 Nebula Graph 來搭建圖數據庫平臺。

圖數據庫平臺建設

下面介紹美團圖數據庫平臺的建設，整個圖數據庫平臺包括 4 層。

第一層是數據生產層，平臺的圖數據主要有兩種來源，第一種是業務方把數倉中數據經過 ETL Job 轉成點和邊的 Hive 表，而後離線導入到圖數據庫中；第二種是業務線上實時產生的數據、或者經過 Spark、Flink 等流式處理產生的近線數據，實時地經過 Nebula Graph 提供的在線批量接口灌到圖數據庫中。

第二層是數據存儲層，平臺支持兩種圖數據庫集羣的部署方式。

第一種是 CP 方案，即 Consistency & Partition tolerance，這是 Nebula Graph 原生支持的集羣部署方式。單集羣部署，集羣中機器數量大於等於副本的數量，副本數量大於等於 3 。只要集羣中有大於副本數一半的機器存活，整個集羣就能夠對外正常提供服務。CP 方案保證了數據讀寫的強一致性，但這種部署方式下集羣可用性不高。
第二種部署方式是 AP 方案，即 Availability & Partition tolerance，在一個應用中部署多個圖數據庫集羣，每一個集羣數據副本數爲 1 ，多集羣之間進行互備。這種部署方式的好處在於整個應用對外的可用性高，但數據讀寫的一致性要差點。

第三層是數據應用層，業務方能夠在業務服務中引入平臺提供的圖譜 SDK，實時地對圖數據進行增刪改查。

第四層是支撐平臺，提供了 Schema 管理、權限管理、數據質檢、數據增刪改查、集羣擴縮容、圖譜畫像、圖數據導出、監控報警、圖可視化、集羣包管理等功能。

通過這四層架構設計，目前圖數據庫平臺基本具有了對圖數據的一站式自助管理功能。若是某個業務方要使用這種圖數據庫能力，那麼業務方能夠在這個平臺上自助地建立圖數據庫集羣、建立圖的 Schema、導入圖數據、配置導入數據的執行計劃、引入平臺提供的 SDK 對數據進行操做；平臺側主要負責各業務方圖數據庫集羣的穩定性。目前有3、四十個業務在平臺上真正落地，基本能知足各個業務方需求。

再介紹下圖數據庫平臺中幾個核心模塊的設計。

高可用模塊設計

首先是單應用多集羣高可用模塊的設計（AP 方案）。爲何有 AP 方案的設計呢？由於接入這個圖數據庫平臺的業務方比較在乎的指標是集羣可用性。在線服務對集羣的可用性要求很是高，最基礎的要求是集羣可用性能達到 4 個 9，即一年裏集羣的不可用時間要小於一個小時，對於在線服務來講，服務或者集羣的可用性是整個業務的生命線，若是這點保證不了，即便集羣提供的能力再多再豐富，那麼業務方也不會考慮使用，可用性是業務選型的基礎。

另外公司要求中間件要有跨區域容災能力，即要具有在多個地域部署多集羣的能力。咱們分析了平臺接入方的業務需求，大約 80% 的場景是 T+1 全量導入數據、線上只讀；在這種場景下對圖數據的讀寫強一致性要求並不高，所以咱們設計了單應用多集羣這種部署方案。

部署方式能夠參考上圖，一個業務方在圖數據庫平臺上建立了 1 個應用並部署了 4 個集羣，其中北京 2 個、上海 2 個，平時這 4 個集羣同時對外提供服務。假如如今北京集羣 1 掛了，那麼北京集羣 2 能夠提供服務。若是說真那麼不巧，北京集羣都掛了，或者對外的網絡不可用，那麼上海的集羣能夠提供服務，這種部署方式下，平臺會盡量地經過一些方式來保證整個應用的可用性。而後每一個集羣內部儘可能部署同機房的機器，由於圖數據集羣內部 RPC 是很是多的，若是有跨機房或者跨區域的頻繁調用，整個集羣對外的性能會比較低。

這個 AP 模塊的設計主要包含下面 4 個部分：

第一部分是右側的圖數據庫 Agent，它是部署在圖數據庫集羣的一個進程，用來收集機器和Nebula Graph 三個核心模塊的信息，並上報到圖數據庫平臺。Agent 可以接收圖數據庫平臺的命令並對圖數據庫進行操做。
第二部分是圖管理平臺，它主要是對集羣進行管理，並同步圖數據庫集羣的狀態到配置中心。
第三部分是圖數據庫 SDK，它主要作的事情是管理鏈接到圖數據庫集羣的鏈接。若是業務方發送了某個查詢請求，SDK 會進行集羣的路由和負載均衡，選擇出一條高質量的鏈接來發送請求。此外，SDK 還會處理圖數據庫集羣中問題機器的自動降級以及恢復，而且要支持平滑切換集羣的數據版本。
第四部分是配置中心，相似 ZooKeeper，存儲集羣的當前狀態。

每小時百億級數據導入模塊設計

第二個模塊是每小時百億量級數據導入模塊，上面說了業務場景裏 80% 是 T+1 全量導入數據，而後線上只讀。平臺在 19 年末 / 20 年初全量導入數據的方式是調用 Nebula Graph 對外提供的批量數據導入接口，這種方式的數據寫入速率大概是每小時 10 億級別，導入百億數據大概要耗費 10 個小時，這個時間有點久。此外，在以幾十萬每秒的速度導數據的過程當中，會長期佔用機器的 CPU、IO 資源，一方面會對機器形成損耗，另外一方面數據導入過程當中集羣對外提供的讀性能會變弱。

爲了解決上面兩個問題，平臺進行了以下優化：在 Spark 集羣中直接生成圖數據庫底層文件 sst file，再借助 RocksDB 的 bulkload 功能直接 ingest 文件到圖數據庫。這部分提速優化工做在 19 年末的時候就開始了，可是中間遇到 core dump 問題沒有上線。在 20 年6、七月份的時候，微信的本利大佬向社區提交了這方面的 pr，和他在線溝通以後解決了咱們的問題，在這裏感謝一下本利大佬 💐 。

圖數據庫平臺數據導入的核心流程能夠看右邊這張圖，當用戶在平臺上提交了導數據操做後，圖數據庫平臺會向公司的 Spark 集羣提交一個 Spark 任務，在 Spark 任務中會生成圖數據庫裏相關的點、邊以及點索引、邊索引相關的 sst 文件，並上傳到公司的 S3 雲存儲上。文件生成後，圖數據庫平臺會通知應用裏的多個集羣去下載這些存儲文件，以後完成 ingest 跟 compact 操做，最後完成數據版本的切換。

平臺方爲兼顧各個業務方的不一樣需求，統一了應用導入、集羣導入、離線導入、在線導入以及全量導入、增量導入這些場景，而後細分紅下面九個階段，從流程上保證在導數據過程當中應用總體的可用性。

sst file生成
sst file下載
ingest
compact
數據校驗
增量回溯
數據版本切換
集羣重啓
數據預熱

實時寫入多集羣數據同步模塊設計

第三個模塊是實時寫入多集羣數據同步，平臺有 15% 的需求場景是在實時讀取數據時，還要把新產生的業務數據實時寫入集羣，而且對數據的讀寫強一致性要求不高，就是說業務方寫到圖數據庫裏的數據，不須要立馬能讀到。

針對上述場景，業務方在使用單應用多集羣這種部署方案時，多集羣裏的數據須要保證最終一致性。平臺作了如下設計，第一部分是引入 Kafka 組件，業務方在服務中經過 SDK 對圖數據庫進行寫操做時，SDK 並不直接寫圖數據庫，而是把寫操做寫到 Kafka 隊列裏，以後由該應用下的多個集羣異步消費這個 Kafka 隊列。

第二部分是集羣在應用級別可配置消費併發度，來控制數據寫入集羣的速度。具體流程是

SDK 對用戶寫操做語句作語法解析，將其中點邊的批量操做拆解成對單個點邊操做，即對寫語句作一次改寫
Agent 消費 Kafka 時確保每一個點及其出邊相關操做在單個線程裏順序執行，保證這點就能保證各個集羣執行完寫操做後最終的結果是一致的。
併發擴展：經過改變 Kafka 分片數、Agent 中消費 Kafka 線程數來變動和調整 Kafka 中操做的消費速度。
若是將來 Nebula Graph 支持事務的話，上面的配置須要調整成單分片單線程消費，平臺須要對設計方案再作優化調整。

第三部分是在實時寫入數據過程當中，圖數據庫平臺能夠同步生成一個全量數據版本，並作平滑切換，經過右圖裏的流程來確保數據的不重不漏不延遲。

圖可視化模塊設計

第四個模塊是圖可視化模塊，平臺在 2020 年上半年調研了 Nebula Graph 官方的圖可視化設計跟一些第三方開源的可視化組件，而後在圖數據庫平臺上增長了通用的圖可視化功能，主要是用於解決子圖探索問題；當用戶在圖數據庫平臺經過可視化組件查看圖數據時，能儘可能經過恰當的交互設計來避免由於節點過多而引起爆屏。

目前，平臺上的可視化模塊有下面幾個功能。

第一個是經過 ID 或者索引查找頂點。

第二個是能查看頂點和邊的卡片（卡片中展現點邊屬性和屬性值），能夠單選、多選、框選以及按類型選擇頂點。

第三個是圖探索，當用戶點擊某個頂點時，系統會展現它的一跳鄰居信息，包括：該頂點有哪些出邊？經過這個邊它能 Touch 到幾個點？該頂點的入邊又是什麼狀況？經過這種一跳信息的展現，用戶在平臺上探索子圖的時候，可快速瞭解到周邊的鄰居信息，更快地進行子圖探索。在探索過程當中，平臺也支持對邊進行過濾。

第四個是圖編輯能力，讓平臺用戶在不熟悉 Nebula Graph 語法的狀況下也能增刪改點邊數據，對線上數據進行臨時的干預。

業務實踐

下面來介紹下接入咱們平臺的一些落地項目。

第一個項目是智能助理，它的數據是基於美團商戶數據、用戶評論構建的餐飲娛樂知識圖譜，覆蓋美食、酒店、旅遊等領域，包含 13 類實體和 22 類關係。目前點邊數量大概在百億級別，數據是 T+1 全量更新，主要用於解決搜索或者智能助理裏 KBQA（全稱：Knowledge Based Question Answer）類的問題。核心處理流程是經過 NLP 算法識別關係和實體後構造出 Nebula Graph SQL 語句，再到圖數據庫獲取數據。

典型的應用場景有商場找店，好比，某個用戶想知道望京新薈城這個商場有沒有海底撈，智能助理就能快速查出結果告訴用戶。

還有一個典型場景是標籤找店，想知道望京 SOHO 附近有沒有適合情侶約會的餐廳，或者你能夠多加幾個場景標籤，系統都能給你查找出來。

第二個是搜索召回，數據主要是基於醫美商家信息構建的醫美知識圖譜，包含 9 類實體和 13 類關係，點邊數量在百萬級別，一樣也是 T+1 全量更新，主要用於大搜底層實時召回，返回與 query 相關的商戶、產品或醫生信息，解決醫美類搜索詞少結果、無結果問題。好比，某個用戶搜「啤酒肚」這種症狀、或者「潤百顏」這類品牌，系統都能給他召回相關的醫美門店。

第三個是圖譜推薦理由，數據來自用戶的畫像信息、商戶的特徵信息、用戶半年內收藏/購買行爲，如今的數據量級是 10 億級別， T+1 全量更新。這個項目的目標是給出美食列表推薦商戶的可解釋理由。爲何會作這個事呢？如今美團 App 和點評 App 上默認的商戶推薦列表是由深度學習模型生成的，但模型並不會給出生成這個列表的理由，缺乏可解釋性。然而在圖譜裏用戶跟商戶之間自然存在多條連通路徑，咱們但願能選出一條合適路徑來生成推薦理由，在 App 界面上展現給用戶推薦某家店的緣由。好比咱們能夠基於用戶的協同過濾算法來生成推薦理由，在家鄉、消費水平、偏好類目、偏好菜系等多個組合維度中找出多條路徑，而後給這些路徑打分，選出一條分值較高的路徑，以後按照特定 pattern 產出推薦理由。經過上述方式，就能夠得到在北京喜歡北京菜的山東老鄉都說這家店很贊，或者廣州老鄉都中意他家的正宗北京炸醬麪這類理由。

第四個是代碼依賴分析，是把公司裏的代碼庫中代碼依賴關係寫到圖數據庫。公司代碼庫裏有不少服務代碼，這些服務都會有對外提供的接口，這些接口的實現依賴於該服務中某些類的成員函數，這些類的成員函數又依賴了本類的成員變量、成員函數、或者其它類的成員函數，那麼它們之間的依賴關係就造成了一張圖，咱們把這個圖寫到圖數據庫裏，作什麼事呢？

典型場景是 QA 的精準測試，當 RD 完成需求並向公司的代碼倉庫提交了他的 pr 後，這些更改會實時地寫到圖數據庫中，因此 RD 就能查到他所寫的代碼影響了哪些外部接口，而且能展現出調用路徑來。若是 RD 原本是要改接口 A 的行爲，他改了不少東西，可是他可能並不知道他改的東西也會影響到對外接口 B、C、D，這時候就能夠用代碼依賴分析來作個 Check。

第五個是服務治理，美團內部有幾十萬個微服務，這些微服務之間存在互相調用關係，這些調用關係造成了一張圖。咱們把這些調用關係實時寫入圖數據庫裏，而後作一些服務鏈路治理和告警優化工做。

第六個項目是數據血緣，把數倉中 ETL 任務的依賴關係寫到了圖數據庫中，大概是千萬級別的數據量級，數據實時寫入，天天凌晨作一次全量 reload，主要是用來查找數據任務的上下游依賴。好比說，經過這個 FIND NOLOOP PATH FROM hash('task1') OVER depend WHERE depend.type == '強依賴' UPTO 50 STEPS 語句找出 task1 這個任務的全部強依賴路徑。這裏，咱們針對 Nebula Graph 官方的 FIND PATH 功能作了一些增強，添加了無環路徑的檢索跟 WHERE 語句過濾。

美團和 Nebula

最後，來介紹下團隊對社區的貢獻。

爲了更好地知足圖數據庫平臺上用戶的需求，咱們對 Nebula Graph 1.0的內核作了部分功能的擴充和部分性能的優化，並把相對來講比較通用的功能給 Nebula Graph 社區提了 PR，也向社區公衆號投稿了一篇主流開源分佈式圖數據庫Benchmark 🔗 。

固然，咱們經過 Nebula Graph 解決了公司內的不少業務問題，目前對 Nebula Graph 社區作的貢獻還比較少，後續會增強在社區技術共享方面的工做，但願可以培養出愈來愈多的 Nebula Committer。

美團圖數據庫平臺的將來規劃

將來規劃主要有兩個方面，第一方面是等 Nebula Graph 2.0 的內核相對穩定後，在咱們圖數據庫平臺上適配 Nebula Graph 2.0 內核。第二方面是去挖掘更多的圖數據價值。如今美團圖數據庫平臺支持了圖數據存儲及多跳查詢這種基本能力，後續咱們打算基於 Nebula Graph 去探索一下圖學習、圖計算的能力，給平臺用戶提供更多挖掘圖數據價值的功能。

以上爲本次美團 NLP 技術專家——趙登昌老師帶來的圖數據庫平臺建設方面的分享。

若是你對【圖存儲】、【圖學習】、【圖計算】感興趣，歡迎向趙登昌老師投遞簡歷，投遞郵箱：zhaodengchang@meituan.com。

喜歡這篇文章？來來來，給咱們的 GitHub 點個 star 表鼓勵啦~~ 🙇‍♂️🙇‍♀️ [手動跪謝]

交流圖數據庫技術？交個朋友，Nebula Graph 官方小助手微信：NebulaGraphbot 拉你進交流羣~~