hadoop項目實戰--ETL--(一)項目分析

項目描述

項目簡介

在遠程服務器上的數據庫中有兩張表,user order,現須要對錶中的數據作分析,將分析後的結果再存到mysql中。兩張表的結構以下圖所示html

 

 

 

現須要分析每一天user,oder的新增數量。python

 

在遠程的日誌服務器上存放有用戶瀏覽網站所留下的apache日誌數據,如今須要對日誌文件進行ETL處理,並分析用戶的行爲。mysql

日誌文件的格式以下sql

221.204.14.33 - - [11/Jul/2014:01:23:22 +0800] "GET /static/image/common/pic-next.png HTTP/1.0" 200 1496 "http://www.aboutyun.com/thread-7977-1-1.html" "Mozilla/5.0 (Windows NT 6.1; WOW64; Trident/7.0; rv:11.0) like Gecko"數據庫

 

項目分析

因爲這是一個學習項目,沒有用戶的真實數據,因此咱們在本機windows上安裝mysql數據,在虛擬機中用Python腳本模擬用戶註冊信息,向數據庫中插入數據。而後在寫一個python腳本,利用sqoop工具向虛擬機中的HIVE中導入數據,第一導入爲全量導入,之後爲增量導入。而後利用HIVE作大數據分析,分析完成後再利用sqoop工具把分析結果存入mysql中。apache

在日誌文件處理方面,咱們先在網上下載好離線的apache日誌數據,利用python腳本天天定時向HDFS中導入日誌數據,而後利用mapreduce對日誌數據進行清洗,清洗完之後的數據再導入到HIVE中,而後在HIVE中對日誌文件進行分析。分析完成後利用sqoop工具將分析結果導入到Mysql中。windows

這就是這個項目的的主要工做類容及工做流程。服務器

 

項目流程圖

 

相關文章
相關標籤/搜索