【SPARK】- RDD分區

RDD是彈性分佈式數據集,通常RDD很大,會被分成很多分區,分別保存在不同節點上 分區原則 RDD分區是使分區的個數儘量等於集羣中的CPU核心數目 默認分區數 對於不同的Spark部署模式而言(本地模式、Standalone模式、YARN模式、Mesos模式),都可以通過設置spark.default.parallelism這個參數的值來配置默認分區數。 本地模式:默認爲本地機器的CPU數目,若設
相關文章
相關標籤/搜索