SparkSql------RDD、DataFrame、DataSet

RDD RDD是一個懶執行的不可變的可以支持Functional(函數式編程)的並行數據集合。 RDD的最大好處就是簡單,API的人性化程度很高。 RDD的劣勢是性能限制,它是一個JVM駐內存對象,這也就決定了存在GC的限制和數據增加時Java序列化成本的升高。 DataFrame 簡單來說DataFrame是RDD+Schema的集合 什麼是Schema? 之前我們學習過MySQL數據庫,在數據
相關文章
相關標籤/搜索