SparkSQL中 RDD、DataFrame、DataSet三者的區別與聯繫

RDD RDD:彈性分佈式數據集;不可變、可分區、元素可以並行計算的集合。 優點: RDD編譯時類型安全:編譯時能檢查出類型錯誤; 面向對象的編程風格:直接通過類名點的方式操作數據。 缺點: 序列化和反序列化的性能開銷很大,大量的網絡傳輸; 構建對象佔用了大量的heap堆內存,導致頻繁的GC(程序進行GC時,所有任務都是暫停) DataFrame DataFrame以RDD爲基礎的分佈式數據集。
相關文章
相關標籤/搜索