spark算子join操做

時間 2019-12-06

標籤 spark 算子 join 欄目 Spark 简体版

原文原文鏈接

一旦分佈式數據集（distData）被建立好，它們將能夠被並行操做。例如，咱們能夠調用distData.reduce(lambda a, b: a + b)來將數組的元素相加。咱們會在後續的分佈式數據集運算中進一步描述。並行集合的一個重要參數是slices，表示數據集切分的份數。Spark將會在集羣上爲每一份數據起一個任務。典型地，你能夠在集羣的每一個CPU上分佈2-4個slices. 通常來講

>>阅读原文<<