Spark六 數據分區

分區 1) Spark分佈式程序中網絡傳輸的通信代價很大,所以爲了較少傳輸開銷,需要控制RDD分區,和單節點的程序需要選擇使用合適的數據結構一樣,Spark程序需要選擇合適的分區方式 2) 只有數據集是基於鍵時,分區纔會有用,Spark可以確保同一個組的鍵出現在同一個節點上,比如使用鍵的哈希值做模運算 3) 如果不使用分區partitionBy(),則每次調用Join()等函數都對從來不會變化的數
相關文章
相關標籤/搜索