Hive有一個嚴格模式,在嚴格模式下會對可能產生較大查詢結果的語句作限制,禁止其提交執行。html
查看當前的模式:算法
hive> set hive.mapred.mode; hive.mapred.mode is undefined
未定義即爲false,即no-strict模式。sql
開啓嚴格模式:優化
set hive.mapred.mode=strict;
關閉嚴格模式:3d
set hive.mapred.mode=undefined;
分區表的數據量一般都比較大,對分區表的查詢必須使用到分區相關的字段,不容許掃描全部分區,想一想也是若是掃描全部分區的話那麼對錶進行分區還有什麼意義呢。htm
固然某些特殊狀況可能仍是須要掃描全部分區,這個時候就須要記得確保嚴格模式被關閉。blog
由於要保證全局有序須要將全部的數據拉到一個Reducer上,當數據集比較大時速度會很慢。我的猜想多是設置了limit N以後就會有一個很簡單的優化算法:每一個Reducer排序取N而後再合併排序取N便可,可大大減小數據傳輸量。排序
hive不會對where中的鏈接條件優化爲on,因此join必須帶有on鏈接條件,不容許兩個表直接相乘。 ip
.it