數據倉庫流程和代碼說明

數據源:業務數據庫,如:mysql,埋點數據(XA分發到kafka的topic-->flume-->hdfs---->MR程序解析到HDFS-->HIVE外表關聯)。java

數據倉庫各層(stg-ods-mid-dm-fm):數據圖書館,數據整合mysql

數據應用層:MYSQL,HBASE,essql

應用:數據分析,數據挖掘知識   學習機器學習知識shell

其中涉及的技術:數據庫

0、hadoop集羣知識框架

一、shell知識機器學習

二、HBASE知識oop

三、hive知識學習

四、kafka topic知識日誌

五、flume配置

六、java知識,MR編寫

七、zookeeper知識

------------------------------------------------

數據倉庫的代碼框架:

一、數據倉庫須要考慮兩個問題,一、指定日期,支持重跑;二、連續跑好幾天;

須要用到的shell:

一、日期處理語句

去年:echo -e  `date --date="2018-12-20 -1 year" +%Y-%m-%d`

上月:echo -e  `date --date="2018-12-20 -1 month" +%Y-%m-%d`

昨日:echo -e  `date --date="2018-12-20 -1 day" +%Y-%m-%d`

 

二、打日誌

echo  有兩個參數 -e -n

echo -e 處理特殊字符

若字符串中出現如下字符,則特別加以處理,而不會將它當成通常文字輸出:  \a 發出警告聲;  \b 刪除前一個字符;  \c 最後不加上換行符號;  \f 換行但光標仍舊停留在原來的位置;  \n 換行且光標移至行首;  \r 光標移至行首,但不換行;  \t 插入tab;  \v 與\f相同;  \ 插入\字符;  \nnn 插入nnn(八進制)所表明的ASCII字符;

相關文章
相關標籤/搜索