數據源:業務數據庫,如:mysql,埋點數據(XA分發到kafka的topic-->flume-->hdfs---->MR程序解析到HDFS-->HIVE外表關聯)。java
數據倉庫各層(stg-ods-mid-dm-fm):數據圖書館,數據整合mysql
數據應用層:MYSQL,HBASE,essql
應用:數據分析,數據挖掘知識 學習機器學習知識shell
其中涉及的技術:數據庫
0、hadoop集羣知識框架
一、shell知識機器學習
二、HBASE知識oop
三、hive知識學習
四、kafka topic知識日誌
五、flume配置
六、java知識,MR編寫
七、zookeeper知識
------------------------------------------------
數據倉庫的代碼框架:
一、數據倉庫須要考慮兩個問題,一、指定日期,支持重跑;二、連續跑好幾天;
須要用到的shell:
一、日期處理語句
去年:echo -e `date --date="2018-12-20 -1 year" +%Y-%m-%d`
上月:echo -e `date --date="2018-12-20 -1 month" +%Y-%m-%d`
昨日:echo -e `date --date="2018-12-20 -1 day" +%Y-%m-%d`
二、打日誌
echo 有兩個參數 -e -n
echo -e 處理特殊字符
若字符串中出現如下字符,則特別加以處理,而不會將它當成通常文字輸出: \a 發出警告聲; \b 刪除前一個字符; \c 最後不加上換行符號; \f 換行但光標仍舊停留在原來的位置; \n 換行且光標移至行首; \r 光標移至行首,但不換行; \t 插入tab; \v 與\f相同; \ 插入\字符; \nnn 插入nnn(八進制)所表明的ASCII字符;