RDD分區

一、分區的作用 RDD是彈性分佈式數據集,通常RDD很大,會被分成很多個分區,分別保存到不同的節點上。 ①、對RDD分區,第一個功能是增加並行度。 例如,1個RDD有n個分區,分佈在n個不同工作節點(WorkerNode)上面,這n個工作節點分別啓動n個線程對這n個分區的數據進行並行處理,從而增加了任務的並行度。(1個工作節點上面有幾個分區,啓動幾個線程) ②、對RDD分區,第二個功能是減少通信開
相關文章
相關標籤/搜索