SparkSQL(8):DataSet和DataFrame區別和轉換

1.概念: (1)DataSet和RDDjava   大數據的框架許多都要把內存中的數據往磁盤裏寫,因此DataSet取代rdd和dataframe。由於,現階段底層序列化機制使用的是java的或者Kryo的形式。可是,java序列化出來的數據很大,影響存儲Kryo對於小數據量的處理很好,可是數據量一大,又會出現問題,因此官方的解決方法是使用自定義的編碼器(Encoder)去序列化sql (2)D
相關文章
相關標籤/搜索