spark-RDD、DF、DS

描述一下RDD,DataFrame,DataSet的區別? 1)RDD 優點: 編譯時類型安全 編譯時就能檢查出類型錯誤 面向對象的編程風格 直接通過類名點的方式來操作數據 缺點: 序列化和反序列化的性能開銷 無論是集羣間的通信, 還是 IO 操作都需要對對象的結構和數據進行序列化和反序列化。 GC 的性能開銷,頻繁的創建和銷燬對象, 勢必會增加 GC 2)DataFrame DataFrame
相關文章
相關標籤/搜索