Spark RDD、DataFrame、Dataset的區別

Resilient Distributed Dataset (RDD) RDD是一個不可變的分佈式的數據元素集合,RDD中的元素在集羣上是分區的,提供了Transformation和Action兩種並行操作。 優點:強類型,編譯時類型安全,符合面向對象的編程思想,可以處理結構化數據和非結構化數據。 缺點:默認採用的是Java序列化方式,無論是集羣間的通信,還是IO操作都需要對對象的結構和數據進行序
相關文章
相關標籤/搜索