Spark將大量分區寫入HDFS報錯

時間 2019-12-06

標籤 spark 大量分區寫入 hdfs 報錯欄目 Spark 简体版

原文原文鏈接

對大量的數據進行一系列的數據處理後DataFrame此時有2W個分區（170W條數據，所以每一個分區數量只有幾百條），此時使用parquet命令，將會往一個hdfs文件中同時寫入了大量的碎文件。提示（省略無用信息）：node WARN TaskSetManager: Lost task: org.apache.spark.SparkException: Task failed while wri

>>阅读原文<<