spark之DataFrame、DataSet、RDD的區別

RDD(彈性分佈式數據集) RDD是Spark中最基本的數據抽象,它代表一個不可變、可分區、裏面的元素可並行計算的集合,RDD是Spark Core的底層核心,Spark則是這個抽象方法的實現 DataFrame  上圖直觀地體現了DataFrame和RDD的區別。  左側的RDD[Person]雖然以Person爲類型參數,但Spark框架本身不瞭解 Person類的內部結構。  而右側的Dat
相關文章
相關標籤/搜索