Hadoop新手學習指導

對於咱們新手入門學習hadoop大數據存儲的朋友來講,首先了解一下雲計算和雲計算技術是有必要的。下面先是介紹雲計算和雲計算技術的:              雲計算,是一種基於互聯網的計算方式,經過這種方式,共享的軟硬件資源和信息能夠按需求提供給計算機和其餘設備,主要是基於互聯網的相關服務地增長、使用和交付模式,一般涉及經過互聯網來提供動態易擴展且常常是虛擬化的資源。雲是網絡、互聯網的一種比喻說法。過去在圖中每每用雲來表示電信網,後來也用來表示互聯網和底層基礎設施的抽象。狹義雲計算指IT基礎設施的交付和使用模式,指經過網絡以按需、易擴展的方式得到所需資源;廣義雲計算指服務地交付和使用模式,指經過網絡以按需、易擴展的方式得到所需服務。這種服務能夠是IT和軟件、互聯網相關,也但是其餘服務。它意味着計算也可做爲一種商品經過互聯網進行流通。
       什麼是雲計算
       什麼是雲計算技術
       在世界上雲計算已經大面流行,有很流行的Google Drive、SkyDrive、Dropbox、亞馬遜雲服務等等。在國內百度雲存儲、360雲存儲都是比較流行的。
      咱們就應該會想到大數據存儲,目前開源市場上最流行的應該是hadoop分佈式存儲,已經有大部分互聯網公司已經開始使用,例如百度、360、阿里巴巴,其中一部分公司已經把hadoop做爲他們的核心產品例如英特爾、IBM併爲部分工做提供過大數據的解決方案,你們能夠了解一下英特爾在不行業提供的解決方案:
php

       Hadoop是一個可以對大量數據進行分佈式處理的軟件框架,它是一種技術的實現,是雲計算技術中重要的組成部分,雲計算的概念更普遍且偏向業務而不是必須拘泥於某項具體技術,雲計算的存在只是一種新的商業計算模型和服務模式。所以,雲計算纔會出現「橫當作嶺側成峯,遠近高低各不一樣」,各類各樣層出不窮的理解。
hadoop 大數據之後的方向:超越Hadoop的大數據將來的研究方向
      因此hadoop在大數據方面之後是主流,對咱們想接觸大數據的朋友是有必要學習hadoop的,對於初學的朋友:
      hadoop前景、畢業薪酬,你所關心的 我想這些更是你們想要關心的內容,也是初學朋友有必要的看的。

      對於初學hadoop的朋友來講可能基於迫切尋找一本入門的書,我我的以爲不用於急於尋找書,先了解hadoop是否作什麼、它能作什麼、能帶來什麼 hadoop使用場景Hadoop到底能作什麼?怎麼用hadoop?,當你們對這些有所瞭解,就會如何入手學習hadoop
      接下來你們應該進行系統性的學習hadoop了,我我的建議不要盲目的去搭建hadoop環境,熟悉瞭解hadoop基本知識及其所須要的知識例如java基礎、linux環境、linux經常使用命令,它相關產品及其衍生產品,他們之間是什麼關係如何工做,每一個產品它們的特色是什麼,下面是hadoop一些基本知識:
shell

    上面這些都是hadoop核心部分,當這些有所瞭解後,你們基本上能夠具有你們hadoop環境的條件了。

    hadoop部署方式爲單機模式、僞分佈式、徹底分佈式。對單機模式你們能夠不用去關心和學習,在學習中我我的建議是搭建僞分佈式,徹底分佈式是生產環境中使用,當你們把僞分佈式後,必須對徹底分佈式有所瞭解,知道是如何工做的,也能夠試着搭建hadoop的完成分佈式。如今hadoop已經發行了最新的2.2.x版本,可是不測試不夠全面不夠穩定,你們應該選擇比較穩定的版本學習,由於在公司中仍是會使用穩定的版本,2.2.x版本中一些處理機制和方案是值得咱們學習的,須要全部瞭解, Hadoop 各個發佈版的特性以及穩定性
下面是搭建hadoop的安裝步驟。
    搭建僞分佈式:hadoop 僞分佈式搭建        徹底分佈式:hadoop 三節點集羣安裝配置詳細實例
你們安裝完成後須要一些基本的練級:

   你們這些有了基礎性的學習後,這時候是比較適合找本書來系統性的學習hadoop。


   有一點想提醒初學的朋友,在學習hadoop開發的時候不要使用hadoop eclipse插件,這樣會給你帶來沒必要要的問題,你能夠在eclipse使用maven工具下載hadoop資源包,而後寫好mapreduce代碼打包後傳上本身的服務,使用命令啓動運行。 
   到這裏你們其實已經對hadoop有了系統性的認識和學習,我想後面的學習每一個人的學習方式都是不一樣的,你們所須要的資料問題在論壇上均可以找的到。祝你們學習hadoop愉快。


還有篇文章不得不看,從另外角度闡述該如何學習hadoop,能夠查看零基礎學習hadoop到上手工做線路指導

相關文章
相關標籤/搜索