2、Spark基礎知識學習

1、彈性分佈式數據集(RDD):如下圖所示,對於Spark而言,每次MR完成,會將結果存在分佈式內存當中,從而節省在IO上花費的時間              迭代操作                   交互操作           2、處理數據傾斜       現象:reduceBykey的時候,由於很多key是相同的,所以無論節點開啓的是多少,總會有那麼幾臺節點機器的壓力非常大     解決
相關文章
相關標籤/搜索