關於RDD分區(一)

RDD是彈性分佈式數據集,通常RDD很大,會被分成很多個分區,分別保存在不同的節點上,作用有二:增加並行度和減少通信開銷(連接操作),例如下圖: RDD分區原則: RDD分區的一個原則是使得分區的個數儘量等於集羣中的CPU核心(core)數目 對於不同的Spark部署模式而言(本地模式、Standalone模式、YARN模式、Mesos模式),都可以通過設置spark.default.parall
相關文章
相關標籤/搜索