spark 經過 RDD 從HDFS文件加載JSON文件到sql表

RDD定義 RDD全稱是Resilient Distributed Dataset, 是spark的核心抽象層,經過它能夠讀取多種文件,這裏演示如何讀取hdfs文件。全部spark的工做都是發生在RDD上,好比建立新的RDD,轉換已有的RDD,對現有的RDD計算求得結果。node RDD在spark中是不可變的(immutable)對象集合,RDD能夠被劃分紅多個分區,存放在不一樣的節點。git
相關文章
相關標籤/搜索