大數據面試知識點總結Spark Sql、DataFrames、DataSet

1 簡述SparkSQL中RDD、DataFrame、DataSet三者的區別與聯繫? (筆試重點) 1)RDD 優點: 編譯時類型安全 編譯時就能檢查出類型錯誤 面向對象的編程風格 直接通過類名點的方式來操作數據 缺點: 序列化和反序列化的性能開銷 無論是集羣間的通信, 還是IO操作都需要對對象的結構和數據進行序列化和反序列化。 GC的性能開銷,頻繁的創建和銷燬對象, 勢必會增加GC 2)Dat
相關文章
相關標籤/搜索