SparkRDD函數詳解(一)--RDD轉換函數

1.什麼是RDD   RDD(Resilient Distributed Dataset),彈性分佈式數據集,Spark中最基本的數據抽象,它代表一個不可變、可分區、裏面的元素可並行計算的集合。在 Spark 中,對數據的所有操作不外乎創建 RDD、轉化已有RDD 以及調用 RDD 操作進行求值。每個 RDD 都被分爲多個分區,這些分區運行在集羣中的不同節點上。RDD 可以包含 Python、Ja
相關文章
相關標籤/搜索