spark sql之讀寫數據(十二)

簡介   Spark SQL支持多種結構化數據源,輕鬆從各類數據源中讀取Row對象。這些數據源包括Parquet、JSON、Hive表及關係型數據庫等。java   當只使用一部分字段時,Spark SQL能夠智能地只掃描這些字段,而不會像hadoopFile方法同樣簡單粗暴地掃描所有數據。python Parquet   Parquet是一種流行的列式存儲格式,能夠高效地存儲具備嵌套字段的記錄。
相關文章
相關標籤/搜索