Spark SQL和DataFrame的學習總結

一、DataFrame 一個以命名列組織的分佈式數據集。概念上至關於關係數據庫中一張表或在R / Python中的data frame數據結構,但DataFrame有豐富的優化。在spark 1.3以前,核心的新類型爲RDD-schemaRDD,現改成DataFrame。spark 經過DataFrame操做大量的數據源,包括外部文件(如 json、avro、parquet、sequencefil
相關文章
相關標籤/搜索