1、什麼是大數據分析工具及技術
Hadoop是目前的處理和存儲海量數據的最佳工具。Hadoop能夠利用數百臺甚至數千臺計算機處理大數據問題,而不是使用單機處理。
Hadoop能夠以廉價、快速的範式處理大數據,彬進行數據挖掘和數據分析。Hadoop能解決大多數大數據問題。
Apache Hadoop是開源項目,靈感來自於Google的研究。
Hadoop把計算機協調成一個總體,稱爲集羣,其中的每臺計算機都稱爲節點。
2、Hadoop大數據分析工具及技術的優勢:
1. Hadoop很便宜。
Hadoop是開源的Apache項目,全部人均可以避免費使用。Hadoop運行於普通硬件之上,所以無需購買專業的數據庫服務器。
2. Hadoop速度很快。
Hadoop能夠在幾分鐘內處理TB級的數據,在幾小時內能夠處理完PB級的數據。並且Hadoop仍是那些互聯網巨頭如Facebook、Twitter、Yahoo、eBay、Amazon等快速處理大數據並制訂決策的惟一方式。
3. Hadoop能夠爲大數據存儲任意擴展。
須要更多的空間嗎?只需增長帶硬盤驅動器的節點,永遠都沒必要關機。
4. Hadoop能夠擴展到大數據計算。
你的集羣很慢嗎?只需增長更多的節點就能夠提高速度。Hadoop的擴展幾乎是線性的,這意味着節點數量增長一倍後只需一半的計算時間。
5. Hadoop的大數據類型是靈活的。
你在處理結構化的數據嗎?很好。你有半結構化或非結構化的數據嗎?Hadoop能夠存儲和處理任意類型的數據。
6. Hadoop對編程語言是靈活的。
Hadoop自己是用Java開發的,可是你可使用類SQL語言如Apache Hive訪問你的數據。若是你想要過程式的語言進行分析,能夠用Apache Pig。若是你想深刻框架,你能夠用Java、C/C++、Ruby、Python、C#、QBasic等任意語言自定義分析你的數據。
做者:chszs,博客主頁:http://blog.csdn.net/chszs
3、Hadoop大數據分析工具及技術的缺點:
1. 難以建設好純Hadoop環境。
最好仍是聘請一些專家或購買一些第三方Hadoop公司提供的服務吧。
2. 純Hadoop環境難以管理。
目前還缺乏圖形化的管理界面。
3. 純Hadoop難以一直保證健壯性。
Hadoop有各類單點故障。單Hadoop崩潰時,你會損失數據和損失時間。
4. 純Hadoop難以使用。
這是很嚴肅的,不是笑話。
5. 純Hadoop並不安全。
你存儲在Hadoop的文件並不安全,用戶能輕易損壞或偷走數據。全部的Hadoop用戶必須是可信任的。
6. 純Hadoop並未針對硬件進行優化。
數據庫