大數據是目前很是火熱的詞,基本各行各業都離不開大數據,利用金融數據分析一個公司的走勢,利用監控數據能夠抓住一個在逃逃犯。這些都是大數據應用程序。
apache
數據無處不在,各行各業無時無刻不在產生大量的數據。
如何保存和分析像海洋同樣的數據,成爲了一道難題。傳統的單機存儲存在存儲容量小、讀寫速率慢、計算效率低下的缺點。Google提出了一系列大數據技術。好比MapReduce,bigtable,gfs。這些技術給大數據存儲和分析帶來了革命性的改變。首先下降了成本,數據能用PC機存儲,而不是超級計算機。其次使用軟件提升可靠性,而不是硬件。最後簡化了分佈式並行計算,不須要控制同步和數據交換。Google只提供了一些論文,沒有開源源代碼。因此一個模仿Google的開源技術來了。就是hadoop。
hadoop是apache的頂級項目之一,主要負責分佈式存儲和分佈式計算。 hadoop由兩個部分組成:hdfs存儲海量數據,mapreduce實現任務分解和處理。hadoop能夠實現如下功能:
爲何選擇hadoop,首先擴展性強,能夠經過簡單地添加硬件實現,其次成本很低,不須要使用高端的機器,只用我的電腦就能夠。最後hadoop的生態圈成熟,圍繞hadoop產生了不少工具。分佈式