Hadoop的常見問題有不少,之前扣丁學堂大數據培訓小編也曾給讀者們分享過一些,本篇文章小編繼續給讀者們分享一些Hadoop常見問題解答,感興趣的小夥伴就來了解一下吧。sql
一、100個以上hadoop節點,通常怎麼開發,運維?任務不少的狀況下任務資源怎麼分配,任務執行順序是定時腳本仍是別的什麼方式控制?數據庫
a.首先大數據的應用開發和hadoop集羣的規模是沒有關係,你指的是集羣的搭建和運維嗎,對於商用的hadoop系統來講涉及到不少東西。編程
b.任務的分配是有hadoop的調度器的調度策略決定的,默認爲FIFO調度,商業集羣通常使用多隊列多用戶調度器。服務器
c.任務的執行順序是有用戶控制的,你天然能夠定時啓動,也能夠手動啓動。微信
二、基於Hadoop作開發,是否必須會使用Java,使用其餘開發語言是否沒法更好的融入整個Hadoop的開發體系?網絡
基於Hadoop作開發可使用任何語言,由於hadoop提升了streaming編程框架和pipes編程接口,streaming框架下用戶可使用任何能夠操做標準輸入輸出的計算機語言來開發hadoop應用。框架
三、在reduce階段總是卡在最後階段很長時間,在網上查的說是有多是數據傾斜,我想問這個有啥解決方法嗎?運維
a.你這個就是數據傾斜啊,好多數據都集中在一個reduce裏其餘reduce裏分配的數據比較少。默認狀況下決定哪些數據分配到哪一個reduce是由reduce個數和partiiton分區決定的默認是對key進行hash運算,通常狀況下用mapreuce傾斜不多除非你用的HIVE。oop
b.reduce分爲3個子階段:shuffle、sort和reduce,若是reduce整個過程耗時較長,建議先看一下監控界面是卡在哪一個階段,若是是卡在shuffle階段每每是網絡阻塞問題,還有就是某reduce數據量太大,也就是你所說的數據傾斜問題,這種問題每每由於某個key的value太多,解決方法是:第一,默認的partiiton可能不適合你的需求,你能夠自定義partiiton;第二就是在map端截斷,儘可能讓達到每一個reduce端的數據分佈均勻。學習
四、非大數據的項目可否用hadoop?
非大數據項目是否能夠用Hadoop的關鍵問題在因而否有海量數據的存儲,計算,以及分析挖掘等需求,若是現有系統已經很好知足當前需求那麼就沒有必要使用Hadoop,沒有必要使用並不意味這不能使用Hadoop,不少傳統系統能作的Hadoop也是能夠作的。
例如使用HDFS來代替LINUX NFS,使用MapReduce來代替單服務器的統計分析相關任務,使用Hbase代替Mysql等關係數據庫等,在數據量不大的狀況下一般Hadoop集羣確定比傳統系統消耗更多的資源。
五、hadoopmapreduce和第三方資源管理調度系統如何集成?
Hadoop的調度器設計的一個原則就是可插拔式調度器框架,所以是很容易和第三方調度器集成的,例如公平調度器FairScheduler和容量調度器CapacityScheduler,並配置mapred-site.xml的mapreduce.jobtracker.taskscheduler以及調度器自己的配置參數。
最後想要了解更多關於大數據方面內容的小夥伴,請關注扣丁學堂大數據培訓官網、微信等平臺,扣丁學堂IT職業在線學習教育平臺爲您提供權威的大數據視頻,大數據培訓後的前景無限,行業薪資和將來的發展會愈來愈好的,扣丁學堂老師精心推出的大數據在線教程定能讓你快速掌握大數據從入門到精通開發實戰技能。