什麼是hadoop，hadoop能夠作什麼

時間 2020-05-10

標籤什麼 hadoop 能夠欄目 Hadoop 简体版

原文原文鏈接

面試如今這家公司的時候，領導說有意讓我接觸大數據這塊的項目，當時可把我高興的。雖然來這快兩年了也沒接觸大數據，詞卻是聽了幾個。hadoop念着挺順口，究竟是個什麼東西呢。搜索了一波，總結以下。html

hadoop是什麼？面試

Hadoop就是一個分佈式計算的解決方案.數據庫

能看懂嗎。看不懂的繼續往下看看編程

hadoop能作什麼？分佈式

若是是1G , 1T 甚至 1PB 的數據須要找出相同的關鍵詞，一般的方式須要耗時幾天，有了hadoop之後能夠縮短爲幾個小時。原理看起來很簡單，利用分佈式計算。Hadoop 要作的事，首先把 1PB的數據文件導入到 HDFS中, 而後編程人員定義好 map和reduce, 也就是把文件的行定義爲key,每行的內容定義爲value , 而後進行正則匹配,匹配成功則把結果經過reduce聚合起來返回.Hadoop 就會把這個程序分佈到N 個結點去並行的操做。oop

這就是雲計算。若是不懂還有更簡單的例子大數據

好比 1億個 1 相加得出計算結果, 咱們很輕易知道結果是 1億.可是計算機不知道，那麼單臺計算機處理的方式作一億次的循環，每次結果+1。
那麼分佈式的處理方式則變成我用 1萬臺計算機,每一個計算機只須要計算 1萬個 1 相加，而後再有一臺計算機把 1萬臺計算機獲得的結果再相加
從而獲得最後的結果.
理論上講, 計算速度就提升了 1萬倍. 固然上面多是一個不恰當的例子.但所謂分佈式,大數據,雲計算大抵也就是這麼回事了.雲計算

hadoop擅長日誌分析，facebook、淘寶搜索中的自定義篩選都使用的Hive。不只如此，Twitter、Yahoo也是用到Pig技術。spa

PS: .net

Hive是Hadoop生態圈中及其重要的一個組件。Hadoop生態的數據是存儲在HDFS中，而Hive能對其中的數據進行分析和管理。用戶經過命令行或JDBC可以使用Hive進行增刪改查等數據庫操做。

想更加了解hadoop的朋友能夠多瞭解Hive、Pig、Hbase，這篇文章能夠看下，相信會有很大幫助 Hadoop的Hive、Pig、Hbase

此文摘自：

通俗易懂的瞭解Hadoop