Hadoop發展到今天家族產品已經很是豐富,可以知足不一樣場景的大數據處理需求。做爲目前主流的大數據處理技術,市場上不少公司的大數據業務都是基於Hadoop開展,並且對不少場景已經具備很是成熟的解決方案。java
做爲開發人員掌握Hadoop及其生態內框架的開發技術,就是進入大數據領域的必經之路。程序員
下面詳細介紹一下,學習Hadoop開發技術的路線圖。
Hadoop自己是用java開發的,因此對java的支持性很是好,但也可使用其餘語言。算法
下面的技術路線側重數據挖掘方向,由於Python開發效率較高因此咱們使用Python來進行任務。sql
由於Hadoop是運行在Linux系統上的,因此還須要掌握Linux的知識。數據庫
想學習好大數據能夠關注公衆號程序員大牛 有視頻資源分享一塊兒學習編程
第一階段:Hadoop生態架構技術
語言基礎windows
Java:掌握javase知識,多理解和實踐在Java虛擬機的內存管理、以及多線程、線程池、設計模式、並行化就能夠,不須要深刻掌握。設計模式
Linux:系統安裝(命令行界面和圖形界面)、基本命令、網絡配置、Vim編輯器、進程管理、Shell腳本、虛擬機的菜單熟悉等等。網絡
Python:基礎語法,數據結構,函數,條件判斷,循環等基礎知識。數據結構
環境準備
這裏介紹在windows電腦搭建徹底分佈式,1主2從。
VMware虛擬機、Linux系統(Centos6.5)、Hadoop安裝包,這裏準備好Hadoop徹底分佈式集羣環境。
MapReduce
MapReduce分佈式離線計算框架,是Hadoop核心編程模型。主要適用於大批量的集羣任務,因爲是批量執行,故時效性偏低。
HDFS1.0/2.0
Hadoop分佈式文件系統(HDFS)是一個高度容錯性的系統,適合部署在廉價的機器上。HDFS能提供高吞吐量的數據訪問,很是適合大規模數據集上的應用。
Yarn(Hadoop2.0)
前期瞭解便可,Yarn是一個資源調度平臺,主要負責給任務分配資源。Yarn是一個公共的資源調度平臺,全部知足條件的框架均可以使用Yarn來進行資源調度。
Hive
Hive是一個數據倉庫,全部的數據都是存儲在HDFS上的。使用Hive主要是寫Hql,很是相似於Mysql數據庫的Sql。其實Hive在執行Hql,底層在執行的時候仍是執行的MapRedce程序。
Spark
Spark 是專爲大規模數據處理而設計的快速通用的計算引擎,其是基於內存的迭代式計算。Spark 保留了MapReduce 的優勢,並且在時效性上有了很大提升。
Spark Streaming
Spark Streaming是實時處理框架,數據是一批一批的處理。
Spark Hive
基於Spark的快速Sql檢索。Spark做爲Hive的計算引擎,將Hive的查詢做爲Spark的任務提交到Spark集羣上進行計算,能夠提升Hive查詢的性能。
Storm
Storm是一個實時計算框架,和MR的區別就是,MR是對離線的海量數據進行處理,而Storm是對實時新增的每一條數據進行處理,是一條一條的處理,能夠保證數據處理的時效性。
Zookeeper
Zookeeper是不少大數據框架的基礎,它是集羣的管理者。監視着集羣中各個節點的狀態根據節點提交的反饋進行下一步合理操做。
最終,將簡單易用的接口和性能高效、功能穩定的系統提供給用戶
Hbase
Hbase是一個Nosql 數據庫,是一個Key-Value類型的數據庫,是高可靠、面向列的、可伸縮的、分佈式的數據庫。
適用於非結構化的數據存儲,底層的數據存儲在HDFS上。
Kafka
kafka是一個消息中間件,在工做中經常使用於實時處理的場景中,做爲一箇中間緩衝層。
Flume
Flume是一個日誌採集工具,常見的就是採集應用產生的日誌文件中的數據,通常有兩個流程。
一個是Flume採集數據存儲到Kafka中,方便Storm或者SparkStreaming進行實時處理。
另外一個流程是Flume採集的數據存儲到HDFS上,爲了後期使用hadoop或者spark進行離線處理。
第二階段:數據挖掘算法
中文分詞
開源分詞庫的離線和在線應用
天然語言處理
文本相關性算法
推薦算法
基於CB、CF,歸一法,Mahout應用。
分類算法
NB、SVM
迴歸算法
LR、Decision Tree
聚類算法
層次聚類、Kmeans
神經網絡與深度學習
NN、Tensorflow
以上就是學習Hadoop開發的一個詳細路線,鑑於篇幅緣由只列舉和解釋了框架做用。
學習完第一階段的知識,已經能夠從事大數據架構相關的工做,能夠在企業中負責某些或某個的開發與維護工做。
學習完第二階段的知識,能夠從事數據挖掘相關的工做,這也是目前進入大數據行業含金量最高的工做。