深入理解RDD

RDD 即 Resilient Distributes Dataset, 是spark中最基礎、最常用的數據結構。其本質是把input source 進行封裝,封裝之後的數據結構就是RDD,提供了一系列操作,比如 map、flatMap、filter等。input source種類繁多,比如hdfs上存儲的文件、本地存儲的文件,相應的 RDD的種類也有很多。不同的input source 對應着不
相關文章
相關標籤/搜索