最近比較迷hadoop,由於以爲在現在互聯網時代大數據應用將會有不錯的前景。雖然如今已經有了不少hadoop解決方案的應用商好比說Hortonworks、Cloudera等等這樣的公司,可是我仍是以爲本身從apache上下載安裝hadoop是一件很酷的事,這樣的話全部配置都是在本身的掌握之下才能更好的學習hadoop的知識。閒話很少說了,接下來就是記錄本身學習hadoop的心得與技巧,高手看了一笑了之,新手一塊兒共勉!java
一、先從官網http://hadoop.apache.org上下載hadoop1.x版本(暫未研究Hadoop2). node
二、安裝linux操做系統,不少教程都是安裝的ubuntu系統但是我不喜歡,本人仍是喜歡CentOS和RedHat系統,有閒置的真機固然最好,若是沒有的話就只能玩虛擬機了。(本人的筆記本配置還行,8G的內存因此就搭建了五臺虛擬機,一個namenode,一個seco)linux
三、將下載的hadoop壓縮包解壓到/usr/local目錄(不少教材推薦目錄),最重要的安裝jdk,最好是將系統原有的jdk版本卸載而後從新從官網下載較新的比較穩定版本的jdk,建議下載壓縮包格式的jdk。一樣的將下載好的jdk壓縮包也解壓到/usr/local目錄下。apache
四、hadoop與jdk都已經解壓到了指定的目錄中,接下來就是配置它們的環境變量了,在用戶的主目錄下的.bash_profile或者.bashrc文件中添加PATH變量:ubuntu
而且將變量下的bin目錄導入到PATH中:bash
最後經過運行jdk命令java -version查看jdk安裝是否成功,運行hadoop命令hadoop version查看hadoop是否安裝成功:ssh
五、安裝成功後,而後就是對集羣的配置了,爲了便於對hadoop配置的管理和往後升級的方便,將hadoop安裝目錄中的conf目錄移到/etc下並將conf目錄重命名爲hadoop,則hadoop的配置文件就到移到了/etc/hadoop目錄下這樣好像也還符合linux系統的習慣,而後在hadoop安裝目錄中創建一個軟連接conf到/etc/hadoop:ide
六、配置ssh,這個步驟是比較重要的,不少人都會問爲何要配置這一步,若是你研究過hadoop的啓動腳本的話你就能夠發現其實就是namenode節點須要ssh登陸到各個datanode上去啓動hadoop的進程。因此並不須要有的書上說的要配置因此節點間相互的無密碼登陸。那麼咱們就先在namenode節點上生成密鑰對:oop
一直回車,完成後會在用戶主目錄下的.ssh目錄下生成兩個文件:學習
經過命令將id_rsa.pub公鑰文件複製到其餘節點上去:ssh-copy-id <hostname>,這樣就直接把文件拷貝到了其餘節點的.ssh目錄下而且還自動改成了authorized_key文件
而後能夠逐一的去檢驗ssh登陸了。