tableau爲一個數據分析軟件,其優點是分析數據表中的數據,效果比較好。從簡介中說到能夠對日誌也能夠進行分析。因而咱們用來作日誌分析,主要是分爲如下的幾個步驟:shell
1、Hortonworks Hadoop Hive服務器的搭建數據庫
在分析日誌的時候須要的是對日誌實時的分析,咱們將源數據存儲在s3服務器上,設計的思路是隻能從s3上get過來以後,而後導入到所要使用的數據庫中,而後實時的更新到tableau的客戶端上面。服務器
tableau商家沒有給出服務器去怎麼搭建,這一部分折騰了好久。剛開始用的是hadoop1.2.1 和 hive1.2.1進行搭建,最後的結果過是在客戶端能夠鏈接上服務器。這裏主要使用的hiveserver2數據庫,連接的時候使用beeline進行連接,連接以後不hiveserver2中不能建表,提示有個版本過低,like this:app
在折騰了好久以後,開始升級了hadoop的版本,將hadoop的版本升級到2.6.4,終因而能夠正常的進行建庫建表了。須要記住如下的幾個命令oop
後臺運行hiveserver2: /xxx/xxx/hive/bin/hiveserver2 &ui
客戶端登錄hiveserver2: /xxx/xxx/hive/bin/beelinethis
連接庫: beeline>!connect jdbc:hive2://127.0.0.1:10000 hadoop設計
2、服務器搭建完成後,須要hiveserver2自動的把數據加載進去日誌
我這裏是先將s3的日誌獲取到本地,利用shell直接能登錄而且導入數據到hiveserver2的命令 like this:視頻
tar -zxvf $ACTIVE_END_LOG_GZ
sleep 1
rm -rf $ruifenglog$ACTIVE_END_LOG_GZ
/data/hive/bin/beeline -u jdbc:hive2://localhost:10000/ruifengapplog << EOF
LOAD DATA LOCAL INPATH '$ruifenglog$ACTIVE_END_LOG_FILE' overwrite into table ruifengapplog.wrf_all_log PARTITION(dt='$dateYMDS',hour='$dateCHOUR');
EOF
這句就能夠搞定把數據直接load到hiveserver2對應的數據表中去,而後將當前的操做直接寫成定時的操做。
3、客戶端公式規則的使用。
這部分只是實現了一部分,不懂得話看官網的文檔和視頻就應該能搞定。