Hive開啓mapjoin優化、並行執行、動態分區

時間 2020-07-20

標籤 hive 開啓 mapjoin 優化並行執行動態分區欄目 Hadoop 简体版

原文原文鏈接

1. mapjoin優化適合小表join大表sql

set hive.optimize.skewjoin=true; //有數據傾斜時開啓負載均衡，默認false
set hive.auto.convert.join=true; //設置自動選擇MapJoin，默認是true
set hive.auto.convert.join.noconditionaltask=true; //map-side join
set hive.auto.convert.join.noconditionaltask.size=100000000; //多大的表能夠自動觸發放到內層LocalTask中，默認大小10M
set hive.mapjoin.smalltable.filesize=200000000; //設置mapjoin小表的文件大小爲20M，小表閾值

2. 開啓並行執行併發

set hive.exec.parallel=true; //能夠開啓併發執行
set hive.exec.parallel.thread.number=16; //同一個sql容許最大並行度，默認爲8。

3. 開啓動態分區負載均衡

set hive.exec.dynamic.partition=true; set hive.exec.dynamic.partition.mode=nonstrict;

1. hive的mapjoin執行流程
2. Hive mapjoin的執行計劃解讀
3. Mapjoin執行流程
4. hive優化（1）之mapjoin
5. Hive中mapjoin優化例子
6. hive執行語句優化
7. Hive語句執行優化－簡化UDF執行過程
8. hive 啓動方式及執行流程
9. hive開啓本地模式執行
10. Hive MapJoin
更多相關文章...
• IP地址分配（靜態分配+動態分配+零配置） - TCP/IP教程
• MyBatis SqlSession和Mapper接口執行Sql - MyBatis教程
• PHP開發工具
• 算法總結-歸併排序

相關標籤/搜索