Spark RDD基礎(一)

spark對數據的核心抽象—彈性分佈式數據集(Resilient Distributed Dataset)即RDD,RDD是一個不可變的分佈式對象集合,每一個RDD被分爲多個分區。 在spark中,對數據的全部操做不外乎建立RDD,轉化已有RDD以及調用RDD操做進行求值python RDD基礎 #建立RDD lines=sc.textFile("README.md") #轉化操做由一個RDD生成
相關文章
相關標籤/搜索