談談RDD、DataFrame、Dataset的區別和各自的優點

在spark中,RDD、DataFrame、Dataset是最經常使用的數據類型,本博文給出筆者在使用的過程當中體會到的區別和各自的優點sql   共性: 一、RDD、DataFrame、Dataset全都是spark平臺下的分佈式彈性數據集,爲處理超大型數據提供便利數組 二、三者都有惰性機制,在進行建立、轉換,如map方法時,不會當即執行,只有在遇到Action如foreach時,三者纔會開始遍
相關文章
相關標籤/搜索