關於spark當中生成的RDD分區的設置情況。

時間 2021-01-20

原文原文鏈接

問題描述：我們知道在spark當中是對RDD進行操作的。所以我們想把數據源當中的數據轉化成很多的數據集，這也就是partition的由來。而我們在將數據轉換成RDD之後。我們可以通過設置partition的數量來讓計算的效率更高。首先來看一下官網創建的RDD的描述：從這段描述當中我們可以看到。通過parallelize來個創建RDD。這個時候創建的partiton數量是根據集羣當中的CPU

>>阅读原文<<