hadoop大數據架構

時間 2019-12-07

標籤 hadoop 數據架構欄目 Hadoop 简体版

原文原文鏈接

概要

大數據是目前很是火熱的詞，基本各行各業都離不開大數據，利用金融數據分析一個公司的走勢，利用監控數據能夠抓住一個在逃逃犯。這些都是大數據應用程序。
apache

大數據技術的相關概念

數據無處不在，各行各業無時無刻不在產生大量的數據。

如何保存和分析像海洋同樣的數據，成爲了一道難題。傳統的單機存儲存在存儲容量小、讀寫速率慢、計算效率低下的缺點。Google提出了一系列大數據技術。好比MapReduce，bigtable，gfs。這些技術給大數據存儲和分析帶來了革命性的改變。首先下降了成本，數據能用PC機存儲，而不是超級計算機。其次使用軟件提升可靠性，而不是硬件。最後簡化了分佈式並行計算，不須要控制同步和數據交換。Google只提供了一些論文，沒有開源源代碼。因此一個模仿Google的開源技術來了。就是hadoop。

hadoop是apache的頂級項目之一，主要負責分佈式存儲和分佈式計算。 hadoop由兩個部分組成：hdfs存儲海量數據，mapreduce實現任務分解和處理。hadoop能夠實現如下功能：

爲何選擇hadoop,首先擴展性強，能夠經過簡單地添加硬件實現，其次成本很低，不須要使用高端的機器，只用我的電腦就能夠。最後hadoop的生態圈成熟，圍繞hadoop產生了不少工具。分佈式