Spark SQL:Parquet數據源之自動分區推斷

自動分區推斷(一) 表分區是一種常見的優化方式,好比Hive中就提供了表分區的特性。在一個分區表中,不一樣分區的數據一般存儲在不一樣的目錄中,分區列的值一般就包含在了分區目錄的目錄名中。Spark SQL中的Parquet數據源,支持自動根據目錄名推斷出分區信息。例如,若是將人口數據存儲在分區表中,而且使用性別和國家做爲分區列。那麼目錄結構可能以下所示:java tableName |- ge
相關文章
相關標籤/搜索