RDD分區理解

RDD分區的作用 一個HDFS文件的RDD將文件的每個文件塊表示爲一個分區,並且知道每個文件塊的位置信息。這些對應着數據塊的分區分佈到集羣的節點中,因此,分區的多少涉及對這個RDD進行並行計算的粒度。首先,分區是一個邏輯概念, 變換前後的新舊分區在物理上可能是同一塊內存或者是存儲。 需要注意的是,如果沒有指定分區數將使用默認值,而默認值是該程序所分配到CPU核數,如果是從HDFS文件創建,默認爲文
相關文章
相關標籤/搜索