hivejob中map的優化

1、Hive優化案例——map數過多 集羣運行的作業有不少map數超大的作業,佔用slot過多,導致其他同池子的其他作業等待狀態。由於小文件數過多會佔用元數據過大,計算時也會消耗更多的資源。所以,建議文件的大小控制在不小於 100M。(文件也不是越大越好,gzip壓縮文件最好控制500M以內) 分區表下會有3w多個分區 解決方法 首先要查出產生文件數太多的那步sql。先查當前作業的源表,如果源表不
相關文章
相關標籤/搜索