1.需求python
使用hvie server一段時間後,業務部門須要本身不定時的查詢業務數據,以前這一塊都是他們提需求咱們來作,後來發現這樣重複同樣的工做放在咱們這邊作是在沒有效率,遂提出給他們工具或者web UI自助查詢,固然hive有本身的hwi能夠經過網頁UI進行自助查詢,可是這對不懂sql的業務人員有點不太友好,目前有沒時間去修改hwi的UI,因此仍是給他們提供查詢工具吧。我這邊主要使用python thrift訪問集羣的hive,因此天然要將python源碼打包成.exe,業務人員在windows環境下雙擊該應用程序,輸入參數回車後便可查詢hive數據。web
2.python thrift訪問hive示例代碼以下(connectHive.py):sql
#-*-encoding: utf-8-*- ''' Created on 2014年2月19日 @author: jxw ''' import sys from hive_service import ThriftHive from hive_service.ttypes import HiveServerException from thrift import Thrift from thrift.transport import TSocket from thrift.transport import TTransport from thrift.protocol import TBinaryProtocol def hiveExe(sql): try: transport = TSocket.TSocket('192.168.243.128', 10000) transport = TTransport.TBufferedTransport(transport) protocol = TBinaryProtocol.TBinaryProtocol(transport) client = ThriftHive.Client(protocol) transport.open() client.execute(sql) print "The return value is : " #print client.fetchAll() for r in client.fetchAll(): #for w in r.strip().split('\t'): #print w print r print "............" transport.close() except Thrift.TException, tx: print '%s' % (tx.message) if __name__ == '__main__': num = int(raw_input("input top N:")) #print num sql_ctx = "select * from game_log.tab_char_create limit %d" %num #print sql_ctx hiveExe(sql_ctx) s = raw_input("Enter any key to exit.") print s
3.從http://www.pyinstaller.org/下載pyinstaller,放在F:\zip目錄下並解壓,將以上代碼copy到該目錄下,以下圖:windows
4.打開命令行進入上面的目錄,輸入如下代碼工具
其中-F表示生成單一的一個可執行文件.exe(會將各類.dll等文件集成一個exe文件);-p表明須要import的包的目錄,這裏是python使用thrift服務訪問hive的包py。oop
執行完成後會在當前目錄下生成一個connectHive的目錄,見上圖。fetch
5.執行優化
在connectHive目錄下的dist下面有個connectHive.exe,即爲須要的執行文件,雙擊以下:spa
輸入參數後回車,執行結果見下:命令行
按任意鍵便可退出。
6.待優化
(1) 將結果序列化進文件,方便業務人員自由處理;
(2) 設置hive query的執行頻度,這能夠在代碼中設置hadoop用戶和mapreduce使用的做業隊列mapred.job.queue.name,防止集羣資源被該業務頻繁大規模佔用。