關於spark當中生成的RDD分區的設置情況。

問題描述:我們知道在spark當中是對RDD進行操作的。所以我們想把數據源當中的數據轉化成很多的數據集,這也就是partition的由來。 而我們在將數據轉換成RDD之後。我們可以通過設置partition的數量來讓計算的效率更高。 首先來看一下官網創建的RDD的描述: 從這段描述當中我們可以看到。通過parallelize來個創建RDD。這個時候創建的partiton數 量是根據集羣當中的CPU
相關文章
相關標籤/搜索