數據倉庫是面向主題的、集成的、具備時間特徵的、穩定的數據集合,用以支持經營管理中的決策制定過程nginx
典型應用:算法
數據倉庫其餘特徵數據庫
商用數據倉庫bash
大數據時代數據倉庫markdown
不瞭解的數據倉庫基本概念的,能夠參考以前《瞭解一下數據倉庫》這篇文章。架構
技術手段echarts
基本特色dom
優勢工具
缺點oop
改進
優勢
缺點
改進
優勢
網站報表系統
基本做用
數據規模
用戶量
ETL
行存儲與列存儲
如何建立帶壓縮的ORC表
CREATE EXTERNAL TABLE tmp_logs ( domain_id INT, log_time STRING, log_date STRING, log_type INT, uin BIGINT ) ROW FORMAT DELIMITED FIELDS TERMINATED BY ',' STORED AS TEXTFILE LOCATION '/user/hivetest/logs'; 複製代碼
將數據導入臨時表tmp_logs: LOAD DATA INPATH '/nginx/logs/2016011206' OVERWRITE INTO TABLE tmp_logs;
將臨時表中數據導入到orc格式的表中:
CREATE TABLE logs ( domain_id INT, log_time STRING, log_date STRING, log_type INT, uin BIGINT ) PARTITION BY(log_time STRING) STORED AS ORC tblproperties("orc.compress"="SNAPPY"); INSERT INTO TABLE logs PARTITION(dt='2016-01-12-06') SELECT * FROM tmp_logs; 複製代碼
SELECT domain_id, sum(log_type) FROM logs WHERE log_time>'2016-01-12-06' GROUP BY domain_id; 複製代碼
參數化報表
可視化工具
基於Hadoop構建數據倉庫的好處
基於Hadoop構建數據倉庫的流程