數據倉庫是面向主題的、集成的、具備時間特徵的、穩定的數據集合,用以支持經營管理中的決策制定過程nginx
典型應用:算法
數據倉庫其餘特徵數據庫
商用數據倉庫bash
大數據時代數據倉庫架構
不瞭解的數據倉庫基本概念的,能夠參考以前《瞭解一下數據倉庫》這篇文章。echarts
技術手段dom
基本特色工具
優勢oop
缺點post
改進
優勢
缺點
改進
優勢
網站報表系統
基本做用
數據規模
用戶量
ETL
行存儲與列存儲
如何建立帶壓縮的ORC表
CREATE EXTERNAL TABLE tmp_logs (
domain_id INT,
log_time STRING,
log_date STRING,
log_type INT,
uin BIGINT
)
ROW FORMAT DELIMITED
FIELDS TERMINATED BY ','
STORED AS TEXTFILE
LOCATION '/user/hivetest/logs';
複製代碼
將數據導入臨時表tmp_logs: LOAD DATA INPATH '/nginx/logs/2016011206' OVERWRITE INTO TABLE tmp_logs;
將臨時表中數據導入到orc格式的表中:
CREATE TABLE logs (
domain_id INT,
log_time STRING,
log_date STRING,
log_type INT,
uin BIGINT
)
PARTITION BY(log_time STRING)
STORED AS ORC
tblproperties("orc.compress"="SNAPPY");
INSERT INTO TABLE logs PARTITION(dt='2016-01-12-06') SELECT * FROM tmp_logs;
複製代碼
SELECT domain_id, sum(log_type) FROM logs WHERE
log_time>'2016-01-12-06' GROUP BY domain_id;
複製代碼
參數化報表
可視化工具
基於Hadoop構建數據倉庫的好處
基於Hadoop構建數據倉庫的流程