基於Python的分佈式計算平臺-DPark

來自於:git

https://github.com/jackfengji/test_pro/wiki
github


DPark是一個基於Mesos的集羣計算框架(cluster computing framework),是Spark的Python實現版本,相似於MapReduce,可是比其更靈活,能夠用Python很是方便地進行分佈式計算,而且提供了更多的功能以便更好的進行迭代式計算。多線程

DPark的計算模型是基於兩個中心思想的:對分佈式數據集的並行計算以及一些有限的能夠在計算過程當中、從不一樣機器訪問的共享變量類型。這個的目標 是爲了提供一種相似於global address space programming model的工具,例如OpenMP,可是咱們要求共享變量的類型必須是那些很容易在分佈式系統當中實現的,當前支持的共享變量類型有隻讀的數據和支持一 種數據修改方式的累加器(accumulators)。DPark具備的一個很重要的特性:分佈式的數據集能夠在多個不一樣的並行循環當中被重複利用。這個 特性將其與其餘數據流形式的框架例如Hadoop和Dryad區分開來。框架

User Guide

下載源代碼和安裝指導
  1. 如何下載源代碼分佈式

  2. 如何安裝在mesos上並進行必要的配置ide

使用DPark
  1. 初識DPark
    工具

  2. 如何在本機、多線程、mesos上運行DPark程序
    oop

  3. 彈性分佈式數據集(RDD)
    ui

  4. 共享變量
    spa

  5. Examples

Developer Guide

1. RDD的原理
2. DPark的任務調度機制
3. 共享變量的實現
4. DPark和Spark的區別
相關文章
相關標籤/搜索