談談本身初學hadoop的心路歷程

在學習hadoop以前,我就明確了要致力於大數據行業,成爲優秀的大數據研發工程師的目標,有了大目標以後要分幾步走,而後每一步不斷細分,採用大事化小的方法去學習hadoop。下面開始敘述我是如何初學hadoop的。java

hadooplinux

Hadoop學習兩步走:linux學習、hadoop學習。程序員

在接觸hadoop以前我有java基礎,爲此個人計劃是首先學習Linux,而後學習hadoop生態系統,爲此學習hadoop第一步計劃就是學習linux了,而後linux又能夠分爲四個步驟走。面試

linux任務第一個目標就是要熟練操做linux經常使用命令以及網絡配置;第二個目標就是熟悉用戶以及權限管理操做;第三個目標就是熟悉軟件包以及系統命令管理,第四個就是要學習shell編程了。Linux系統學習完畢以後,緊接着就是第二個計劃了學習Hadoop。shell

Hadoop階段分兩步走。數據庫

第一階段能熟練搭建僞分佈式集羣以及徹底分佈式集羣,我我的認爲先搭建hadoop環境而後再學習hadoop這樣效果更好。就如同看別人代碼同樣,咱們先把別人代碼能跑起來,而後再分析代碼,若是代碼都跑不起來,何談代碼分析,因此先讓hadoop環境搭建起來,能正常運行wordcount程序,咱們才能慢慢分析整個Hadoop生態系統,這樣咱們能對hadoop有個總體上的認識。編程

Hadoop第二階段就是基於第一階段的基礎上,再細分幾大階段:網絡

首先第一階段總體上認識hadoop生態系統,瞭解MapReduce分佈式計算框架、Yarn集羣資源管理和調度平臺、hdfs分佈式文件系統、hive數據倉庫、HBase實時分佈式數據庫、Flume日誌收集工具、sqoop數據庫ETL工具、zookeeper分佈式協做服務、Mahout數據挖掘庫;架構

第二階段學習MapReduce,MapReduce做爲hadoop核心內容,要先易後難,首先了解Mapper、Reducer、Configuration、job等這些類,熟悉MapReduce流程圖,而後寫簡單的單詞統計代碼,總體上對MapReduce認識,以後學習MapReduce運行機制,熟練掌握,MapReduce輸入格式,MapReduce輸出格式,以及MapReduce優化;app

第三階段學習hadoop另外一個核心內容HDFS,首先明白什麼是hdfs,而後再分析hdfs的優勢,而後再瞭解Hdfs的缺點有哪些,HDFS是如何存儲數據的,採用什麼樣的架構,咱們如何實現讀取和寫入HDFS中的文件,以及瞭解HDFS副本存放策略,同時熟練掌握HDFS的shell訪問和java訪問。

第三階段就是學習hadoop另外一個核心內容:Yarn,首先咱們要了解Yarn是什麼,爲何使用Yarn,Yarn的構架,Yarn的原理。我我的認爲,hadoop初學者只要掌握了提供海量數據存儲的HDFS,分佈式計算的MapReduce,以及集羣資源管理和調度平臺的yarn,基本上也就掌握了Hadoop最核心的東西,也爲之後的hbase、hive學習打下了堅實的基礎。

以上是我我的學習大數據的心路歷程,但願可以幫到其餘人。

結語

感謝您的觀看,若有不足之處,歡迎批評指正。

若是有對大數據感興趣的小夥伴或者是從事大數據的老司機能夠加羣:

658558542    (☛點擊便可加入羣聊

裏面整理了一大份學習資料,全都是些乾貨,包括大數據技術入門,海量數據高級分析語言,海量數據存儲分佈式存儲,以及海量數據分析分佈式計算等部分,送給每一位大數據小夥伴,這裏不止是小白彙集地,還有大牛在線解答!歡迎初學和進階中的小夥伴一塊兒進羣學習交流,共同進步!

最後祝福全部遇到瓶頸的大數據程序員們突破本身,祝福你們在日後的工做與面試中一切順利。

相關文章
相關標籤/搜索