RDD、DataFrame、Dataset

首先從版本的產生上來看: RDD (Spark1.0) —> Dataframe(Spark1.3) —> Dataset(Spark1.6)   RDD      RDD的劣勢是性能限制,它是一個JVM駐內存對象,這也就決定了存在GC的限制和數據增加時Java序列化成本的升高。   Dataframe      與RDD類似,DataFrame也是一個分佈式數據容器。然而DataFrame更像傳
相關文章
相關標籤/搜索