Spark Dataset與RDD的persist默認級別的區別

1、Spark Dataset簡述 Dataset是從Spark 1.6開始引入的一個新的抽象,當時仍是處於alpha版本;在Spark 2.0,它已經變成了穩定版了。下面是Dataset的官方定義:編程 Dataset是特定域對象中的強類型集合,它能夠使用函數或者相關操做並行地進行轉換等操做。每一個Dataset都有一個稱爲DataFrame的非類型化的視圖,這個視圖是行的數據集。session
相關文章
相關標籤/搜索