項目講解2

問題一:預處理是什麼意思?web

問題二:獲取時間是在哪裏輸出的?這個是在hive中寫的嗎?oop

問題三:log.preprocess.sh這個預處理文件是用來作什麼的?須要詳細解釋一下spa

問題四:log_click.sh點擊流腳本設計

雪花模型與星型模型:blog

星型表:一個事實表,關聯多個維度表hadoop

3.雪花模型,一個事實表關聯過個維度表,維度表在關聯其餘的表,維度表是按3F式設計,開發

模塊開發-ETL

start-dfs.shit

strat-yarnshio

starthive.shtable

startbeeline.sh   是什麼東西?

1.建立原始數據表

show databases ;

use shizhan;

show tables;

shows tables;

desc  ods_weblog_origin

在建立點擊流模型pageviews表 ods_click_pageviews、點擊流visit模型表   click_stream_visit

要導入數據,已經在本地生成了,按理說應該生成到hdfs上取‘

2.向hive中導入數據:

load data local inpath '/home/hadoop/wash-part-m-0000' into tabales ods_weblog_origin partition(datestr='2013-1-1');

導入不一樣的數據做用是什麼?3個數據的來源與前面的preprocess預處理有啥關係?

相關文章
相關標籤/搜索