問題一:預處理是什麼意思?web
問題二:獲取時間是在哪裏輸出的?這個是在hive中寫的嗎?oop
問題三:log.preprocess.sh這個預處理文件是用來作什麼的?須要詳細解釋一下spa
問題四:log_click.sh點擊流腳本設計
雪花模型與星型模型:blog
星型表:一個事實表,關聯多個維度表hadoop
3.雪花模型,一個事實表關聯過個維度表,維度表在關聯其餘的表,維度表是按3F式設計,開發
start-dfs.shit
strat-yarnshio
starthive.shtable
startbeeline.sh 是什麼東西?
1.建立原始數據表
show databases ;
use shizhan;
show tables;
shows tables;
desc ods_weblog_origin
在建立點擊流模型pageviews表 ods_click_pageviews、點擊流visit模型表 click_stream_visit
要導入數據,已經在本地生成了,按理說應該生成到hdfs上取‘
2.向hive中導入數據:
load data local inpath '/home/hadoop/wash-part-m-0000' into tabales ods_weblog_origin partition(datestr='2013-1-1');
導入不一樣的數據做用是什麼?3個數據的來源與前面的preprocess預處理有啥關係?