Spark中RDD與DataFrame與DataSet的區別與聯繫

1.概述 這是一個面試題web 在Spark中,DataFrame是一種以RDD爲基礎的分佈式數據集,相似傳統數據庫中的二維表格 DataFrame與RDD的主要區別在於,前者帶有schema元數據信息,既DataFram所表示的二維數據集的每一列都帶有名稱和類型。 而RDD,因爲無從得知所存儲數據元素的具體內部結構,Spark Core只能在stage層面進行簡單,通用的流水線優化。 2.例子說
相關文章
相關標籤/搜索