spark dataframe和dataSet用電影點評數據實戰

RDD 優勢:sql 編譯時類型安全  編譯時就能檢查出類型錯誤 面向對象的編程風格  直接經過類名點的方式來操做數據 缺點:shell 序列化和反序列化的性能開銷  不管是集羣間的通訊, 仍是IO操做都須要對對象的結構和數據進行序列化和反序列化. GC的性能開銷  頻繁的建立和銷燬對象, 勢必會增長GC DataFrame DataFrame引入了schema和off-heapapache sc
相關文章
相關標籤/搜索