在 join的時候,最好是 小表 + 大表,hive在連接的時候,會嘗試把前面的行,放入緩存中nginx
加入在查詢中,有一張很小的表,可使用map-side join 將小表徹底放入內存中緩存
hive> explain select * from nginx_log where p_hour='2014071211' limit 2; 使用explain 查看 hive運行的解析和計劃,查詢語句是不會執行的,explain extended 會顯示的更加詳細jvm
並行執行,limit 抽樣 配置ide
合理的map 和reduce 數量,dfs-count 來判斷,jvm 重用索引
索引能夠增長 group by 的速度,動態分區內存