本地搭建hadoop集羣的安裝規劃

Hadoop分佈式集羣環境搭建是每一個入門級新手都很是頭疼的事情,由於你可能花費了好久的時間在搭建運行環境,最終殊不知道什麼緣由沒法建立成功。但對新手來講,運行環境搭建不成功的機率還蠻高的。 在以前的分享文章中給hadoop新手入門推薦的大快搜索DKHadoop發行版,在運行環境安裝方面的確要比其餘的發行版hadoop要簡單的多,畢竟DKHadoop是對底層從新集成封裝的,對與研究hadoop尤爲是入門級新手來講是很是友好的一個發行版!關於DKHadoop的安裝留在後面再給你們分享,本篇就跟你們聊一聊關於【hadoop分佈式集羣環境搭建規劃】。 DKH大數據通用計算平臺 一、分佈式機器架構圖: 分佈式機器架構圖 其中機器1主節點,機器2從節點,機器三、機器4等都是計算節點。當主節點宕機後從節點代替主節點工做,正常狀態是從節點和計算節點同樣工做。這種架構設計保證數據完整性。 首先咱們保證每臺計算節點上分別有一個DataNode節點和NodeManager節點。由於都是計算節點,真正幹活的。在數量上咱們要保證。那麼NameNode和ResourceManager是兩個很是重要的管理者,咱們客戶端的請求,第一時間與NameNode和ResourceManager打交道。NameNode負責管理HDFS文件系統的元數據,客戶端不論是讀文件仍是寫文件,都要首先找到NameNode獲取文件的元數據,再進行文件的操做。ResourceManager也是如此,它負責管理集羣中的資源和任務調度,你也能夠把它視爲「大數據操做系統」。客戶端可否提交應用並運行,就看你的ResourceManager是否正常。 二、達到多大規模的數據,才值得用大數據的方式來處理? 第一,從數據量角度,可是並沒有肯定的答案,通常定性角度來講,你以爲這個數據量單機處理不了,好比內存限制,時間太久等,就用集羣,可是要下降時間,你的處理邏輯必須能分佈式處理,定量就是通常數據或者將來的數據量會達到PB級別(可能GB)或以上就要用分佈式,固然前提也是你的處理邏輯能夠進行分佈式。 第二,從算法角度,或者處理邏輯的時間複雜度來講,好比雖然你的數據記錄不是不少,可是你的算法或者處理邏輯的時間複雜度是n的平方,甚至更高,同時你的算法能夠進行分佈式設計,那麼就考慮用分佈式,好比你的記錄雖然只有1w, 可是時間複雜度確是n的平方,那麼你想一想單機要多久,要是你的算法能夠進行分佈式處理,那麼就考慮用分佈式。 三、制約大數據處理能力的幾個問題 a、網絡帶寬 網絡是聯接計算機的紐帶,這個紐帶固然越寬越好,這樣能夠在計算機資源許可的狀況下,在單位時間內傳輸更多的數據,讓計算機處理更多的數據。如今企業網絡中,廣泛採用的可能是百兆網絡,也有千兆,萬兆雖然有,可是用得很少。 b、磁盤 全部數據,無論它從哪裏來,最終都要存進不一樣的硬盤裏面,或者閃存盤。閃存盤的讀寫效率比硬盤高得多,可是缺點也明顯:價格貴、容量小。如今的存儲介質主要仍是硬盤,硬盤有順序讀寫和隨機讀寫兩種模型。順序讀寫是磁頭沿着磁道,好象流水線同樣,有規律的向前滾動進行。隨機讀寫是磁頭跳躍着,找到磁道上留空的地方,把數據寫進去。很明顯,順序讀寫比隨機讀寫效率高,因此係統架構師在設計大數據存儲方案時,都是以順序讀寫爲主要選擇。 c、計算機的數量 分佈式的集羣環境下,計算機的規模固然越大越好。這樣在數據等量的狀況下,計算機數量越多,分配給每臺計算機的數據越少,處理效率天然就高了。可是計算機的數量也不是能夠無限增長,集羣對計算機規模的容納有一個峯值,超過這個峯值,再提高就很困難,處理很差還會降低。緣由主要來自木桶短板效應、邊界效應、規模放大效應。根據多年前的一個測試,當時以Pentium 3和Pentium 4芯片爲基礎平臺,配合100M網絡,在上面運行LAXCUS大數據系統。當達到千臺計算機的規模時,瓶頸開始顯露出來。若是如今用新的X86芯片,加上更高速的網絡,應該是可以容納更多的計算機。 d、代碼質量 這不是關鍵問題,可是是企業必須關注的一個問題。這和程序員編寫的計算機代碼質量有關。實際上,每一個大數據產品都是半成品,它們只是提供了一個計算框架,要實際應用到企業生產中,裏面還有大量業務編碼須要程序員來實現。要使大數據應用達到高質量,技術負責人要作好前期設計,清楚和規範業務流程,程序員拿到方案後,用統一格式編寫代碼。這是雙方互相配合的過程。或者說,要作好協同和協調的事情。程序員

相關文章
相關標籤/搜索