hive 優化

  1. 在 join的時候,最好是 小表 + 大表,hive在連接的時候,會嘗試把前面的行,放入緩存中nginx

  2. 加入在查詢中,有一張很小的表,可使用map-side join 將小表徹底放入內存中緩存

  3. hive> explain select * from nginx_log where p_hour='2014071211' limit 2; 使用explain 查看 hive運行的解析和計劃,查詢語句是不會執行的,explain extended  會顯示的更加詳細jvm

  4. 並行執行,limit 抽樣 配置ide

  5. 合理的map 和reduce 數量,dfs-count 來判斷,jvm 重用索引

  6. 索引能夠增長 group by 的速度,動態分區內存

相關文章
相關標籤/搜索