hadoop是大數據學習中重要的一部分,在這裏,給你們分享一個學習路線:hadoop生態圈——Strom——Spark——算法。
想學好大數據學習hadoop是第一步,在這裏聲明一下,在學習hadoop以前須要有java基礎,由於hadoop底層全是用java寫的。
還須要系統層面學會使用linux的基本shell命令,由於你學習hadoop得首先會安裝hadoop。
Hadoop在大數據技術體系中的地位相當重要,Hadoop是大數據技術的基礎,對Hadoop基礎知識的掌握的紮實程度,會決定在大數據技術道路上走多遠。
怎麼樣開始學習hadoop。大體的思路是:以安裝部署Apache Hadoop2.x版本爲主線,來介紹Hadoop2.x的架構組成、各模塊協同工做原理、技術細節。安裝不是目的,經過安裝認識Hadoop纔是目的。
第一部分:Linux環境安裝Hadoop是運行在Linux,雖然藉助工具也能夠運行在Windows上,可是建議仍是運行在Linux系統上,第一部分介紹Linux環境的安裝、配置、Java JDK安裝等。
第二部分:Hadoop本地模式安裝Hadoop本地模式只是用於本地開發調試,或者快速安裝體驗Hadoop,這部分作簡單的介紹。
第三部分:Hadoop僞分佈式模式安裝學習Hadoop通常是在僞分佈式模式下進行。這種模式是在一臺機器上各個進程上運行Hadoop的各個模塊,僞分佈式的意思是雖然各個模塊是在各個進程上分開運行的,可是隻是運行在一個操做系統上的,並非真正的分佈式。
第四部分:徹底分佈式安裝徹底分佈式模式纔是生產環境採用的模式,Hadoop運行在服務器集羣上,生產環境通常都會作HA,以實現高可用。
第五部分:Hadoop HA安裝HA是指高可用,爲了解決Hadoop單點故障問題,生產環境通常都作HA部署。這部分介紹瞭如何配置Hadoop2.x的高可用,並簡單介紹了HA的工做原理。
注意事項:
環境搭建好後,而後嘗試編寫mapreduce進行打包運行。當你對hadoop應用編程層面沒有疑問的時候,能夠嘗試去深刻了解mapreduce的核心思想,尤爲是map,shuffle,join,reduce等。
對於不少新手來講,入門會遇到不少問題,這是正常的現象,不過遇到問題不可怕,只要想辦法解決了本身的能力就會一點一點的提升。