spark 讀取ORC文件時間太長（計算Partition時間太長）且產出orc單個文件中stripe個數太多問題解決方案

時間 2019-12-04

標籤 spark 讀取 orc 文件時間太長計算 partition 產出單個 stripe 個數太多問題解決方案欄目 Spark 简体版

原文原文鏈接

一、背景：控制上游文件個數天天7000個，每一個文件大小小於256M，50億條+，orc格式。查看每一個文件的stripe個數，500個左右，查詢命令：html hdfs fsck viewfs://hadoop/nn01/warehouse/…….db/……/partition_date=2017-11-11/part-06999 -files -blocks; stripe個數查看命

>>阅读原文<<