【spark】分區

RDD是彈性分佈式數據集,通常RDD很大,會被分成多個分區,保存在不同節點上。 那麼分區有什麼好處呢? 分區能減少節點之間的通信開銷,正確的分區能大大加快程序的執行速度。 我們看個例子 首先我們要了解一個概念,分區並不等同於分塊。 分塊是我們把全部數據切分成好多塊來存儲叫做分塊。 如上圖b,產生的分塊,每個分塊都可能含有同樣範圍的數據。 而分區,則是把同樣範圍的數據分開,如圖a 我們通過這個圖片可
相關文章
相關標籤/搜索