Spark將大量分區寫入HDFS報錯

對大量的數據進行一系列的數據處理後DataFrame此時有2W個分區(170W條數據,所以每一個分區數量只有幾百條),此時使用parquet命令,將會往一個hdfs文件中同時寫入了大量的碎文件。 提示(省略無用信息):node WARN TaskSetManager: Lost task: org.apache.spark.SparkException: Task failed while wri
相關文章
相關標籤/搜索