寫了兩週的東西,最終仍是沒有寫完,記錄下最近都在幹什。mysql
第一步:接到整合線上日誌的任務,開始進行分析,結果以下:android
一、線上的日誌是按照時間存儲起來的,剛開始覺得直接添加就行。結果發現,實際的業務是從九月初期開始,十月份的時候添加過兩個字段,而且從新的創建了一個日誌文件,目前就有兩個日誌文件,後者除了在原來的基礎上多了兩個字段,因此決定先入庫,分別把兩個的日誌中的數據入庫到hive;sql
#!/bin/sh
####################
#put log to s3
#Author Lcm
#date 2016-10-27
###################
#dateYMD=`date -d yesterday +%Y-%m-%d`
#dateYM=`date -d yesterday +%Y-%m`
#dateMD=`date -d yesterday +%m-%d`
dateYMD='2016-09-'$1
dateYM='2016-09'
dateMD='09-'$1apache
#2016-09 - 2016-10-07
OLD_LOG_PATH='/home/centos/tools/apache-tomcat-8080/igp_logs/reg/'$dateYM'/reg1-'$dateMD'*.log'centos
#2016-10-08
#OLD_LOG_PATH='/home/centos/tools/apache-tomcat-8080/igp_logs/reg1/'$dateYM'/reg1-'$dateMD'*.log'tomcat
OLD_LOG_PATH='/home/centos/tools/apache-tomcat-8080/igp_logs/reg1/'$dateYM'/reg1-'$dateMD'*.log'
NEW_LOG_PATH='/home/centos/tools/s3/s3cmd/s3cmddata/reglog'$dateMD'.log'
TAR_LOG_PATH='/home/centos/tools/s3/s3cmd/s3cmddata/reglog'$dateMD'.gz'
cat $OLD_LOG_PATH > $NEW_LOG_PATH
if [ -f "$NEW_LOG_PATH" ];then
gzip -c $NEW_LOG_PATH >$TAR_LOG_PATH
/home/centos/tools/s3/s3cmd put $TAR_LOG_PATH 's3://ngemobi/logs/igp_logs/reg/dt='$dateYMD'/reglog'$dateMD'.gz'
rm $NEW_LOG_PATH
rm $TAR_LOG_PATH
fi服務器
在當前的服務器中添加定時的入庫hive的命令,主要是把前一天的日誌存儲到Hive中;在定時以前須要把以前的數據先手動的入庫,操做的命令以下:查看數據源、從s3下載到本地、將本地文件的數據入庫到hive、查看分區是否添加成功、查看數據是否添加成功app
一、/data/s3cmd/s3cmd ls -l s3://ngemobi/logs/igp_logs/reg/dt=2016-11-07/3d
二、/data/s3cmd/s3cmd get s3://ngemobi/logs/igp_logs/reg/dt=2016-11-08/reglog11-08.gz日誌
三、LOAD DATA LOCAL INPATH '/data/s3data/reglog11-08' INTO TABLE appname_reg_logs partition(dt='2016-11-08');
四、show partitions appname_reg_logs;
五、select count(*) from appname_reg_logs where dt='2016-11-08';
把天天(aid_byday)新增的和全部的安卓的ID(aid_all),分別的存儲到兩個Hive表中,這裏有順序的關係,首先是把天天新增的獲得以後,在更新aid_all表;
這裏有個邏輯關係
天天新增的數據 = 當天全部的數據 - aid_all 表中存在的 [aid_all表中存儲的是今天以前全部的]
全部的安卓id:今天全部的數據處理完以後進行更新
天天新增手動代碼:
insert into appname_androidid_byday partition (dt='2016-11-06') select distinct(tmp.reg_aid) from(selectappname_androidid_all.appname_androidid all_aid,appname_reg_logs.dt reg_dt, appname_reg_logs.appname_androidid reg_aidfromappname_reg_logsleft outer join appname_androidid_allonappname_reg_logs.appname_androidid=appname_androidid_all.appname_androidid) tmpwheretmp.reg_dt='2016-11-06' and tmp.all_aid is null;
天天全部aid_all入庫:
insert into appname_androidid_all partition (dt='2016-11-05') selectappname_androidid from appname_androidid_byday where dt='2016-11-05';
從當前已經有的Hive表中獲取求和的文件,而後將文件的數據讀取存儲到Mysql表中;
一、每日活躍用戶入庫
select count(*) as LOGS_GETERR_10001, errlog_logtype, errlog_plugin_version from get_error_logs where dt='seDate' and hour='seHour' group by errlog_logtype, errlog_plugin_version
二、每日新增的數據入庫
select count(distinct tmp.reg_aid) as LOGS_APPNAMEADD_10002,tmp.reg_apkname, tmp.reg_country, tmp.reg_apkversioncode from(select appname_androidid_all.appname_androidid all_aid, appname_reg_logs.dt reg_dt, appname_reg_logs.appname_apkname reg_apkname, appname_reg_logs.appname_country reg_country, appname_reg_logs.appname_apkversioncode reg_apkversioncode, appname_reg_logs.appname_androidid reg_aid from appname_reg_logs left outer join appname_androidid_all on appname_reg_logs.appname_androidid=appname_androidid_all.appname_androidid) tmp where tmp.reg_dt='2016-11-03' tmp.all_aid is null group by tmp.reg_apkname,tmp.reg_country,tmp.reg_apkversioncode;
三、每日留存數據入庫
select count(distinct tmp.reg_aid) asLOGS_APPNAMEADD_10003,tmp.reg_apkname, tmp.reg_country, tmp.reg_apkversioncode from(select appname_androidid_all.appname_androidid all_aid, appname_androidid_all.dt all_dt, appname_reg_logs.appname_apknamereg_apkname, appname_reg_logs.appname_countryreg_country, appname_reg_logs.appname_apkversioncode reg_apkversioncode, appname_reg_logs.dt reg_dt, appname_reg_logs.appname_androidid reg_aid from appname_reg_logs left outer join appname_androidid_all on appname_androidid_all.dt='2016-11-02'and appname_reg_logs.appname_androidid=appname_androidid_all.appname_androidid) tmp wheretmp.reg_dt='2016-11-03' and tmp.all_aid is not nullgroup bytmp.reg_apkname,tmp.reg_country,tmp.reg_apkversioncode;
從mysql表中讀取數據,寫相應的代碼來進行展現和查詢;