hive+python數據分析入門

本文首先發布在: http://leanote.com/blog/view/539276d41a91080a06000002 java

本文做者系 leanote 的核心開發者, 多謝關注leanote. leanote官網, leanote githubpython


爲何要使用hive+python來分析數據

舉個例子,git

當年沒有數據庫的時候, 人們經過編程來操做文件系統, 這至關於咱們編寫mapreduce來分析數據.github

後來有了數據庫, 沒人再操做文件系統了(除非有其它需求), 而是直接使用sql再加一些數據的處理. 這就至關於 hive + python了sql

hive + python能解決大多的需求, 除非你的數據是非結構化數據, 此時你就回到了遠古時代不得不寫mapreduce了.數據庫

而爲何不使用hive+java, hive+c, hive+...編程

由於:機器學習

python真是太好用了, 腳本語言, 無需編譯, 有強大的機器學習庫, 適合科學計算(這就是數據分析啊!!)函數


使用hive+python來分析數據

hive與python的分工: 使用hive sql做爲python的數據源, python的輸出做爲map的輸出, 再使用hive的聚合函數做爲reduce.學習

下面使用一個例子來分析: 統計每一個人在某日期人下吃的各類食品的數量

建表 user_foods 用戶食品表

hive> create table user_foods (user_id  string, food_type string, datetime string
)  partitioned by(dt string) ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t' LINES TERMINATED BY '\n' STORED AS TEXTFILE

# partitioned by(dt string) 以日期分區
# 以\n分隔, 字段與字段間以\t分隔.

根據業務須要, 由於是按天來統計, 爲減小分析時的數據量, 上述hive表以dt(日期)爲分區.

建立Hive表後, 會在HDFS /hive/目錄下建立一個與表名同名的文件夾

導入數據

創建分區

hive> ALTER TABLE user_foods ADD PARTITION(dt='2014-06-07');

建立分區後, hdfs目錄/hive/user_foods/下多了一個df='2014-06-07'的目錄

建立測試數據

建立一個文件如data.txt, 加入測試數據

user_1	food1	2014-06-07 09:00
user_1	food1	2014-06-07 09:02
user_1	food2	2014-06-07 09:00
user_2	food2	2014-06-07 09:00
user_2	food23	2014-06-07 09:00

導入數據

hive> LOAD DATA LOCAL INPATH '/Users/life/Desktop/data.txt' OVERWRITE INTO TABLE user_foods PARTITION(dt='2014-06-07');

導入成功後, 使用select * from user_foods查看下.

或使用

hive> select * from user_foods where user_id='user_1'

這會生成一個mapreduce

僅使用hive來分析

"統計每一個人在某日期人下吃的各類食品的數量"  太過簡單, 不須要python就可實現:

hive> select user_id, food_type, count(*) from user_foods where dt='2014-06-07' group by user_id, food_type;

結果:

結合使用python

若是須要對數據清洗或更進一步處理, 那麼確定須要自定義map, 這就可使用python來實現了.

好比food2與food23認爲是同一類型食品, 此時利用python進行數據清洗, python的腳本以下: (m.py)

#!/usr/bin/env python
#encoding=utf-8

import sys
       
if __name__=="__main__":

    # 解析每一行數據
    for line in sys.stdin:
        # 略過空行
        if not line or not line.strip():
            continue

        # 這裏用try 避免特殊行解析錯誤致使所有出錯
        try:
            userId, foodType, dt = line.strip().split("\t")
        except:
            continue

        # 清洗數據, 空數據略過
        if userId == '' or foodType == '':
            continue

        # 清洗數據
        if(foodType == "food23"):
        	foodType = "food2"
        
        # 輸出, 以\t分隔, 即map的輸出
        print userId + "\t" + foodType

再使用hql結合python腳原本分析, 有如下兩步.

1. 加入python腳本, 至關於將腳本加入到 distributed cache

2. 執行, 使用transform和using

hive> add file /Users/life/Desktop/m.py;
hive> select user_id, food_type, count(*) from (
select transform (user_id, food_type, datetime) using 'python m.py' as (user_id, food_type)
from user_foods where dt='2014-06-07'
) tmp group by user_id, food_type;

結果:

python腳本調試建議

1. 首先保證腳本沒有語法錯誤, 能夠執行python m.py來驗證
2. 確保代碼沒有其它輸出
3. 可使用測試數據來測試腳本, 好比:

$> cat data.txt | python m.py
user_1	food1
user_1	food1
user_1	food2
user_2	food2
user_2	food2

1, 2, 3都正確後, 若是再使用hive+python有錯誤, 可能的錯誤有:

1. python腳本對數據的處理不健壯, 有些邊界條件沒有考慮, 致使python出現exception

2. 本身總結吧...

其它

上面這個例子的python腳本充當map的角色, 固然也能夠再創建一個reduce.py來統計map的輸出而不使用hive的聚合函數.

這是創建在hive已不能知足你的需求之上的.

相關文章
相關標籤/搜索