1.優化時,把hive sql當作map reduce程序來讀,會有很好的效果。sql
2.對job數比較多的做業運行效率比較低,即便有幾百行的表,若是屢次關聯,屢次彙總,做業執行時間仍是比較長的。ide
3.對count(distinct),效率較低。性能
優化能夠從幾個方面着手:優化
1.好的模型設計事半功倍spa
2.解決數據傾斜問題設計
3.減小job數量it
4.設置合理的map reduce的task數,能有效提高性能(10w級的計算,用一個reduce足夠)class
5.不適用count(distinct)效率
6.對小文件進行合併,是行之有效的提升效率的方法,map
7.優化時把握總體,單個做業最優不如總體最優