基於Hadoop大數據分析應用場景與實戰

1、Hadoop的應用業務分析算法

大數據是不能用傳統的計算技術處理的大型數據集的集合。它不是一個單一的技術或工具,而是涉及的業務和技術的許多領域。sql

目前主流的三大分佈式計算系統分別爲:Hadoop、Spark和Strom:數據庫

  • Hadoop當前大數據管理標準之一,運用在當前不少商業應用系統。能夠輕鬆地集成結構化、半結構化甚至非結構化數據集。編程

  • Spark採用了內存計算。從多迭代批處理出發,容許將數據載入內存做反覆查詢,此外還融合數據倉庫,流處理和圖形計算等多種計算範式。Spark構建在HDFS上,能與Hadoop很好的結合。它的RDD是一個很大的特色。服務器

  • Storm用於處理高速、大型數據流的分佈式實時計算系統。爲Hadoop添加了可靠的實時數據處理功能架構

Hadoop是使用Java編寫,容許分佈在集羣,使用簡單的編程模型的計算機大型數據集處理的Apache的開源框架。 Hadoop框架應用工程提供跨計算機集羣的分佈式存儲和計算的環境。 Hadoop是專爲從單一服務器到上千臺機器擴展,每一個機器均可以提供本地計算和存儲。併發

Hadoop適用於海量數據、離線數據和負責數據,應用場景以下:app

場景1:數據分析,如京東海量日誌分析,京東商品推薦,京東用戶行爲分析負載均衡

場景2:離線計算,(異構計算+分佈式計算)天文計算框架

場景3:海量數據存儲,如京東的存儲集羣

基於京麥業務三個實用場景

  • 京麥用戶分析

  • 京麥流量分析

  • 京麥訂單分析

都屬於離線數據,決定採用Hadoop做爲京麥數據類產品的數據計算引擎,後續會根據業務的發展,會增長Storm等流式計算的計算引擎,下圖是京麥的北斗系統架構圖:

(圖一)京東北斗系統

2、淺談Hadoop的基本原理

Hadoop分佈式處理框架核心設計

  • HDFS :(Hadoop Distributed File System)分佈式文件系統

  • MapReduce: 是一種計算模型及軟件架構

2.1 HDFS

HDFS(Hadoop File System),是Hadoop的分佈式文件存儲系統。

將大文件分解爲多個Block,每一個Block保存多個副本。提供容錯機制,副本丟失或者宕機時自動恢復。默認每一個Block保存3個副本,64M爲1個Block。將Block按照key-value映射到內存當中。

(圖二)數據寫入HDFS

(圖三)HDFS讀取數據

2.2 MapReduce

MapReduce是一個編程模型,封裝了並行計算、容錯、數據分佈、負載均衡等細節問題。MapReduce實現最開始是映射map,將操做映射到集合中的每一個文檔,而後按照產生的鍵進行分組,並將產生的鍵值組成列表放到對應的鍵中。化簡(reduce)則是把列表中的值化簡成一個單值,這個值被返回,而後再次進行鍵分組,直到每一個鍵的列表只有一個值爲止。這樣作的好處是能夠在任務被分解後,能夠經過大量機器進行並行計算,減小整個操做的時間。但若是你要我再通俗點介紹,那麼,說白了,Mapreduce的原理就是一個分治算法。

算法:

  • MapReduce計劃分三個階段執行,即映射階段,shuffle階段,並減小階段。

  • 映射階段:映射或映射器的工做是處理輸入數據。通常輸入數據是在文件或目錄的形式,而且被存儲在Hadoop的文件系統(HDFS)。輸入文件被傳遞到由線映射器功能線路。映射器處理該數據,並建立數據的若干小塊。

  • 減小階段:這個階段是:Shuffle階段和Reduce階段的組合。減速器的工做是處理該來自映射器中的數據。處理以後,它產生一組新的輸出,這將被存儲在HDFS。

(圖四)MapReduce

2.3 HIVE

hive是基於Hadoop的一個數據倉庫工具,能夠將結構化的數據文件映射爲一張數據庫表,並提供完整的sql查詢功能,能夠將sql語句轉換爲MapReduce任務進行運行,這套SQL 簡稱HQL。使不熟悉mapreduce 的用戶很方便的利用SQL 語言查詢,彙總,分析數據。而mapreduce開發人員能夠把己寫的mapper 和reducer 做爲插件來支持Hive 作更復雜的數據分析。

(圖五)HIVE體系架構圖 

由上圖可知,hadoop和mapreduce是hive架構的根基。Hive架構包括以下組件:CLI(command line interface)、JDBC/ODBC、Thrift Server、WEB GUI、metastore和Driver(Complier、Optimizer和Executor)。 

3、Hadoop走過來的那些坑

進行HIVE操做的時候,HQL寫的不當,容易形成數據傾斜,大體分爲這麼幾類:空值數據傾斜、不一樣數據類型關聯產生數據傾斜和Join的數據偏斜。只有理解了Hadoop的原理,熟練使用HQL,就會避免數據傾斜,提升查詢效率。

歡迎工做一到五年的Java工程師朋友們加入Java架構開發: 855835163 羣內提供免費的Java架構學習資料(裏面有高可用、高併發、高性能及分佈式、Jvm性能調優、Spring源碼,MyBatis,Netty,Redis,Kafka,Mysql,Zookeeper,Tomcat,Docker,Dubbo,Nginx等多個知識點的架構資料)合理利用本身每一分每一秒的時間來學習提高本身,不要再用"沒有時間「來掩飾本身思想上的懶惰!趁年輕,使勁拼,給將來的本身一個交代!

相關文章
相關標籤/搜索