spark 讀取ORC文件時間太長(計算Partition時間太長)且產出orc單個文件中stripe個數太多問題解決方案

一、背景:     控制上游文件個數天天7000個,每一個文件大小小於256M,50億條+,orc格式。查看每一個文件的stripe個數,500個左右,查詢命令:html hdfs fsck viewfs://hadoop/nn01/warehouse/…….db/……/partition_date=2017-11-11/part-06999 -files -blocks; stripe個數查看命
相關文章
相關標籤/搜索