基於Python的分佈式計算平臺-DPark

時間 2019-11-18

原文原文鏈接

來自於：git

https://github.com/jackfengji/test_pro/wiki
github

DPark是一個基於Mesos的集羣計算框架(cluster computing framework)，是Spark的Python實現版本，相似於MapReduce，可是比其更靈活，能夠用Python很是方便地進行分佈式計算，而且提供了更多的功能以便更好的進行迭代式計算。多線程

DPark的計算模型是基於兩個中心思想的：對分佈式數據集的並行計算以及一些有限的能夠在計算過程當中、從不一樣機器訪問的共享變量類型。這個的目標是爲了提供一種相似於global address space programming model的工具，例如OpenMP，可是咱們要求共享變量的類型必須是那些很容易在分佈式系統當中實現的，當前支持的共享變量類型有隻讀的數據和支持一種數據修改方式的累加器(accumulators)。DPark具備的一個很重要的特性：分佈式的數據集能夠在多個不一樣的並行循環當中被重複利用。這個特性將其與其餘數據流形式的框架例如Hadoop和Dryad區分開來。框架