Spark GraphX 編程指南

GraphX編程指南

(根據原文編輯:http://udn.yyuap.com/doc/spark-programming-guide-zh-cn/graphx-programming-guide/index.html)html

GraphX是一個新的(alpha)Spark API,它用於圖和並行圖(graph-parallel)的計算。GraphX經過引入Resilient Distributed Property Graph:帶有 頂點和邊屬性的有向多重圖,來擴展Spark RDD。爲了支持圖計算,GraphX公開一組基本的功能操做以及Pregel API的一個優化。另外,GraphX包含了一個日益增加的圖算法和圖builders的 集合,用以簡化圖分析任務。算法

從社交網絡到語言建模,不斷增加的規模和圖形數據的重要性已經推進了許多新的graph-parallel系統(如Giraph和GraphLab)的發展。 經過限制可表達的計算類型和引入新的技術來劃分和分配圖,這些系統能夠高效地執行復雜的圖形算法,比通常的data-parallel系統快不少。編程

data parallel vs graph parallelapi

然而,經過這種限制能夠提升性能,可是很難表示典型的圖分析途徑(構造圖、修改它的結構或者表示跨多個圖的計算)中不少重要的stages。另外,咱們如何看待數據取決於咱們的目標,而且同一原始數據可能有許多不一樣表和圖的視圖。網絡

表和圖ide

結論是,圖和表之間常常須要可以相互移動。然而,現有的圖分析管道必須組成graph-parallel和data- parallel系統`,從而實現大數據的遷移和複製並生成一個複雜的編程模型。性能

圖分析路徑大數據

GraphX項目的目的就是將graph-parallel和data-parallel統一到一個系統中,這個系統擁有一個惟一的組合API。GraphX容許用戶將數據當作一個圖和一個集合(RDD),而不須要 而不須要數據移動或者複雜。經過將最新的進展整合進graph-parallel系統,GraphX可以優化圖操做的執行。優化

  1. 開始
  2. 屬性圖
  3. 圖操做符
  4. Pregel API
  5. 圖構造者
  6. 頂點和邊RDDs
  7. 圖算法
  8. 例子
相關文章
相關標籤/搜索