深入理解Spark的RDD

RDD全稱Resilient Distribution DataSet  彈性的分佈式數據集 其內部本身不存儲數據,存儲的類似於數據位置的指針,表明某個數據的具體位置 當spark集羣從hdfs文件系統中讀取文件後會把文件映射爲一個RDD,這個RDD是邏輯上的概念其內部不存儲數據,其中每個RDD的Partition和HDFS文件系統中的block 1、其內部是一系列的partition組成 2、每
相關文章
相關標籤/搜索