咱們的hive版本升遷經歷了0.7.1 -> 0.8.1 -> 0.9.0,而且線上shark所依賴的hive版本也停留在0.9.0上,在這些版本上有咱們本身的bug fix patch和feature enhancement。可是Hive的版本升級很快,新版本中修復了大量bug,新增了不少功能,很是使人興奮,其中包括對將來hadoop升級爲YARN的支持。因此咱們準備將hive版本升級爲0.11(最近看到mailist上0.12版本也快呼之欲出了,可是保險起見,仍是先升級爲0.11), 另外shark的github上也已經拉出了hive 0.11分支來支持新版本。html
由於是從0.9一下跳過0.10跨越到0.11,因此調研和測試會cover掉hive 0.10和0.11前端
從hive的release note上,0.10新加的feature和bug fix以下:
1. 支持Cube, Grouping and Rollup語法,能夠進行多級group by
https://cwiki.apache.org/confluence/display/Hive/Enhanced+Aggregation,+Cube,+Grouping+and+Rollupgit
2. 對於簡單的不須要聚合的相似SELECT <col> from <table> LIMIT 20語句,不須要起MapReduce job,直接經過Fetch task獲取數據
https://issues.apache.org/jira/browse/HIVE-887github
3. 新增"Explain dependency"語法,以json格式輸出執行語句會讀取的input table和input partition信息,這樣debug語句會讀取那些表就很方便了
https://issues.apache.org/jira/browse/HIVE-3610web
hive (default)> explain dependency select count(1) from abc; OK Explain {"input_partitions":[],"input_tables":[{"tablename":"default@abc","tabletype":"MANAGED_TABLE"}]} Time taken: 0.095 seconds, Fetched: 1 row(s)
4. 新增"show create table"語法,這樣能知道是如何建立表的。以前咱們很暴力,直接讀取metastore dababase信息來重建表結構信息,若是一旦metastore schema升級,就很容易出問題,此次hive應該是經過metastore client api實現了這個功能,很是靠譜。apache
https://issues.apache.org/jira/browse/HIVE-967json
5. HWI用bootstrap前端框架重寫了一邊,這個對咱們幫助不大,由於咱們已經有Hive web了bootstrap
6. Hadoop 2 - YARN的兼容性支持api
7. List Bucketing Table,優化處理有數據傾斜的表
https://cwiki.apache.org/confluence/display/Hive/ListBucketing前端框架
8. Union優化,若是Union語句的parent是mapreduce job,那麼它會先將結果寫入臨時文件中,Union再讀取這些臨時文件寫入最終目錄,上層語句再讀取最終目錄,這樣致使結果文件讀了兩遍。優化策略就是結果數據直接往最終目錄上寫
https://cwiki.apache.org/confluence/display/Hive/Union+Optimization
9. skew join 優化
https://cwiki.apache.org/confluence/display/Hive/Skewed+Join+Optimization
10. metastore支持在server side作authorization驗證
https://issues.apache.org/jira/browse/HIVE-3705
11. metastore thrift reconnect支持,當metastore client連接一臺metastore thrift server拋出異常,若是用戶在conf之指定了多個metastore uris,hive會從新對另一個創建連接,這個對用戶端是透明的
https://issues.apache.org/jira/browse/HIVE-3400
12. 記錄column統計信息, analyze語句會統計hive table partitions column信息到metastore裏面(好比記錄long類型column的low value, high value, num nulls, numDVs),同時提供了metastore api接口來訪問這些信息,目前的hive優化策略都是基於rule-based的,而有了這些統計信息有助於將來創建cost-based 執行計劃策略
語法以下:
analyze table t [partition p] compute statistics for [columns c,...];
https://cwiki.apache.org/confluence/display/Hive/Column+Statistics+in+Hive
13. 支持cross join語法
https://issues.apache.org/jira/browse/HIVE-2549
14. 支持SHOW TBLPROPERTIES語法
https://issues.apache.org/jira/browse/HIVE-2530
----------------------------------------------------不是那麼華麗的分割線--------------------------------------------------
Hortonworks發佈了一個叫stinger的項目計劃,分階段逐步改善Hive的性能,包括優化器的改進,ORCFile支持,基於DAG的Tez,向量執行引擎,0.11其實就是stinger phase one的產物
0.11 新增的Feature:
1. 把Hcatalog整合到hive裏面了,而不是獨立的項目
2. 支持ORCFile文件格式,基於列存儲,文件內置有inline index,能夠基於文件作predicate pushdown,根據stripe的元數據來選擇是否跳過stripe,大大下降input size
https://cwiki.apache.org/Hive/languagemanual-orc.html
3. 支持windowing和analytics方法,好比lead/lag, row_number, rank, first, last函數
https://cwiki.apache.org/Hive/languagemanual-windowingandanalytics.html
4. Join優化,包括broadcast join和SMB join,對於在多個相同列上作join的表(star join)已經不依賴於用戶指定的hint token了,能夠自動轉化多個MapReduce job爲一個MapReduce job
https://issues.apache.org/jira/browse/HIVE-3403
5. unset TBLPROPERTY
ALTER TABLE tableName UNSET TBLPROPERTIES IF EXISTS (key1, key2, ...)
6. group by 語法加強,group by除了能夠跟column alias,也能夠跟column position
好比:select f1(col1), f2(col2), f3(col3), count(1) group by f1(col1), f2(col2), f3(col3);能夠寫成select f1(col1), f2(col2), f3(col3), count(1) group by 1, 2, 3;
https://issues.apache.org/jira/browse/HIVE-581
7. 增長decimal data格式
https://issues.apache.org/jira/browse/HIVE-2693
8. 支持truncate語法,truncate會刪除表和分區下的全部數據,可是metadata信息會保留
9. 新增Hive Server 2,解決以前存在的security和concurrency問題。同時新增長了Beeline CLI(基於SQLLine),能夠在command-line中以交互式的訪問Hive Server 2
https://issues.apache.org/jira/browse/HIVE-2935
10. 加強Query Plan優化策略,會刪除冗餘的operator
https://issues.apache.org/jira/browse/HIVE-948
接下來會重點對幾個新增特性,好比Hive Server 2, ORCFile, SMB join等作更深刻的調研和測試
本文連接http://blog.csdn.net/lalaguozhe/article/details/11730817,轉載請註明