spark算子join操做

一旦分佈式數據集(distData)被建立好,它們將能夠被並行操做。例如,咱們能夠調用distData.reduce(lambda a, b: a + b)來將數組的元素相加。咱們會在後續的分佈式數據集運算中進一步描述。 並行集合的一個重要參數是slices,表示數據集切分的份數。Spark將會在集羣上爲每一份數據起一個任務。典型地,你能夠在集羣的每一個CPU上分佈2-4個slices. 通常來講
相關文章
相關標籤/搜索