Spark RDD經常使用算子學習筆記詳解(python版)

官網連接: http://spark.apache.org/docs/latest/api/python/pyspark.html#pyspark.RDDphp RDD是Spark中的抽象數據結構類型,任何數據在Spark中都被表示爲RDD。從編程的角度來看,RDD能夠簡單當作是一個數組。和普通數組的區別是,RDD中的數據是分區存儲的,這樣不一樣分區的數據就能夠分佈在不一樣的機器上,同時能夠被並行
相關文章
相關標籤/搜索