Spark RDD核心知識點總結

  RDD介紹數據結構 Resilient Distributed Datasets,意爲容錯的、並行的數據結構,可讓用戶顯式地將數據存儲到磁盤和內存中,並能控制數據的分區。同時,RDD還提供了一組豐富的操做來操做這些數據。分佈式  RDD的特色spa 它是在集羣節點上的不可變的、已分區的集合對象。 經過並行轉換的方式來建立如(map, filter, join, etc)。 失敗自動重建。 能夠
相關文章
相關標籤/搜索