Spark 空間數據管理的一些思考

概述 Spark對空間數據的管理的兩個重要方面:數據分區和數據索引 數據分區 數據分區有幾個重要的關注點:空間鄰近性、數據覆蓋完整性、數據均勻分佈、數據冗餘 空間數據的分區方案一般使用空間索引,控制每一個索引數據項中的數據量,把每一個索引項中的數據作爲一個分區,這樣可以保證分區中的具有數據良好的空間鄰近性。分區空間鄰近性有利於使用部分分區即可完成進行空間查詢、連接等操作。 爲了得到具體的分區結果,
相關文章
相關標籤/搜索