Spark 小文件合併優化實踐

文章目錄 背景 一些嘗試 MergeTable 性能優化 後記 對 spark 任務數據落地(HDFS) 碎片文件過多的問題的優化實踐及思考。node 背景 此文是關於公司在 Delta Lake 上線以前對Spark任務寫入數據產生碎片文件優化的一些實踐。web 造成緣由 數據在流轉過程當中經歷 filter/shuffle 等過程後,開發人員難以評估做業寫出的數據量。即便使用了 Spark 提
相關文章
相關標籤/搜索