在SparkSQL中Spark爲咱們提供了兩個新的抽象,分別是DataFrame和DataSet。他們和RDD有什麼區別呢?首先從版本的產生上來看:
RDD (Spark1.0) —> Dataframe(Spark1.3) —> Dataset(Spark1.6)html
若是一樣的數據都給到這三個數據結構,他們分別計算以後,都會給出相同的結果。不一樣是的他們的執行效率和執行方式。數據結構
在後期的Spark版本中,DataSet會逐步取代RDD和DataFrame成爲惟一的API接口。htm
網址:https://www.cnblogs.com/swordfall/p/9006088.html#auto_id_0blog