spark core之數據分區(七)

簡介   spark一個最重要的特性就是對數據集在各個節點的分區進行控制。控制數據分佈能夠減小網絡開銷,極大地提高總體性能。   只有Pair RDD纔有分區,非Pair RDD分區的值是None。若是RDD只被掃描一次,不必預先分區處理;若是RDD屢次在諸如鏈接這種基於鍵的操做中使用時,分區纔有做用。java 分區器   分區器決定了RDD的分區個數及每條數據最終屬於哪一個分區。   spark
相關文章
相關標籤/搜索