現在參加大數據培訓的小夥伴有不少,有不少的新手朋友對大數據開發還不是很瞭解,本篇文章扣丁學堂大數據培訓小編就給讀者們分享一些新手須要瞭解的Hadoop常見問題,感興趣的小夥伴就來看看吧。c++
一、Hadoop適不適用於電子政務?爲何?程序員
電子政務是利用互聯網技術實現政府組織結構和工做流程的重組優化,建成一個精簡、高效、廉潔、公平的政府運做信息服務平臺。所以電子政務確定會產生相關的大量數據以及相應的計算需求,而這兩種需求涉及的數據和計算達到必定規模時傳統的系統架構將不能知足,就須要藉助海量數據處理平臺,例如Hadoop技術,所以能夠利用Hadoop技術來構建電子政務雲平臺。算法
總結一下,任何系統沒有絕對的適合和不適合,只有當需求出現時才能夠決定,在一個很是小的電子政務系統上若是沒有打數據處理以及計算分析需求時就不須要hadoop這樣的技術,而實際上,商用的電子政務平臺每每涉及到大規模的數據和大量的計算分析處理需求,所以就須要Hadoop這樣的技術來解決。服務器
二、hadoop對於實時在線處理有優點嗎?架構
直接使用hadoop進行實時處理時沒有優點的,由於Hadoop主要解決的是海量批處理做業計算問題,可是可使用基於Hadoop的分佈式NOSQL系統HBase系統以及相關實時處理系統:框架
a、基於Hadoop的HBase能夠作到實時處理以及相關需求的實時計算,主要解決海量相關查詢計算等需求。機器學習
b、能夠考慮Spark計算,Spark是基於共現內存RDD的系統,比Hadoop更快,時候迭代式計算,例如數據挖掘,機器學習算法等。socket
c、還有Storm,Storm是一個免費開源、分佈式、高容錯的實時計算系統,Storm常常用於在實時分析、在線機器學習、持續計算、分佈式遠程調用和ETL等領域。分佈式
d、考慮S4,S4是Yahoo!在2010年10月開源的一套通用、分佈式、可擴展、部分容錯、具有可插拔功能的平臺。這套平臺主要是爲了方便開發者開發處理流式數據(continuous unboundedstreamsofdata)的應用。工具
你能夠依據實際的需求來選擇合適的系統。
三、Hadoop存儲海量數據沒有問題,可是如何可以作到海量數據的實時檢索?
a、能夠結合開源的搜索引擎Apache Lucene,Solr或ElasticSearch
b、海量數據的實時檢索能夠考慮HBase,建議可使用hadoop將數據構建成以查詢key爲鍵的數據集,而後將value>集合寫入Hbase表中,Hbase會自動以key爲鍵進行索引,在數十億甚至以上的級別下,查詢key的value響應時間也估計再10毫秒內。
若是檢索條件是多個組合的狀況下,能夠適當的設計多個hbase表格,這樣的檢索也是很快的,同時Hbase也是支持二級索引。在符合條件下查詢,Hbase也是支持MapReduce的,若是對響應時間要求不高的狀況下,能夠考慮將hive和Hbase系統結合來使用。
若是數據量不是很大的狀況下也能夠考慮支持相似SQL的NOSLQ系統。
四、能不能給點hadoop的學習方法以及學習規劃,hadoop系統有點龐大,感受無從學起?
首先搞清楚什麼是hadoop以及hadoop能夠用來作什麼?
而後,能夠從最經典的詞頻統計程序開始,初步瞭解MapReduce的基本思路和處理數據的方式。
接着,就能夠正式學習hadoop的基本原理,包括HDFS和MapReduce,先從總體,宏觀核心原理看,先別看源碼級別。
進一步,就能夠深刻HDFS和MapReduce和模塊細節,這個時候能夠結合源碼深刻理解,以及實現機制。
最後就是須要實戰了,能夠結合本身的項目或者相關需求來完成一些hadoop相關應用。
五、c/c++
程序員如何入門Hadoop到深刻了解,並在Linux服務器上佈置運用,有沒有方向性的指導?
針對C/C++用戶,Hadoop提供了hadoop
streaming接口和pipes接口,hadoop
streaming接口以標準輸入和標準輸出做爲用戶程序和hadoop框架交互的中間件,pipes這是專門針對C/C++語言的接口,以socket做爲同窗中介。
從使用上建議從streaming入手,pipes相比streaming問題比較多,並且pipes調試不容易。
六、學習hadoop該怎麼入手呢?應該作一些什麼樣的項目呢?
能夠參考咱們上面的幾個回答,能夠從最簡單詞頻統計程序入手,而後學習理解HDFS和MapReduce的基本原理和核心機制,若是僅僅把Hadoop做爲一個工具來使用的話這樣就能夠了,最重要的就是實戰了,能夠嘗試使用Hadoop處理一些數據,例如作日誌分析,數據統計,排序,倒排索引等典型應用。
最後想要了解更多內容的小夥伴能夠登陸扣丁學堂官網諮詢,扣丁學堂有專業老師制定的大數據學習路線圖輔助學員學習,此外還有與時俱進的大數據視頻教程供你們學習,想要學好大數據開發的同窗請加入扣丁學堂學習吧。