Spark 小文件合併優化實踐

時間 2020-01-13

標籤 spark 文件合併優化實踐欄目 Spark 简体版

原文原文鏈接

文章目錄背景一些嘗試 MergeTable 性能優化後記對 spark 任務數據落地(HDFS) 碎片文件過多的問題的優化實踐及思考。node 背景此文是關於公司在 Delta Lake 上線以前對Spark任務寫入數據產生碎片文件優化的一些實踐。web 造成緣由數據在流轉過程當中經歷 filter/shuffle 等過程後，開發人員難以評估做業寫出的數據量。即便使用了 Spark 提

>>阅读原文<<