面試如今這家公司的時候,領導說有意讓我接觸大數據這塊的項目,當時可把我高興的。雖然來這快兩年了也沒接觸大數據,詞卻是聽了幾個。hadoop念着挺順口,究竟是個什麼東西呢。搜索了一波,總結以下。html
hadoop是什麼?面試
Hadoop就是一個分佈式計算的解決方案.數據庫
能看懂嗎。看不懂的繼續往下看看編程
hadoop能作什麼?分佈式
若是是1G , 1T 甚至 1PB 的數據須要找出相同的關鍵詞,一般的方式須要耗時幾天,有了hadoop之後能夠縮短爲幾個小時。原理看起來很簡單,利用分佈式計算。Hadoop 要作的事, 首先把 1PB的數據文件導入到 HDFS中, 而後編程人員定義好 map和reduce, 也就是把文件的行定義爲key,每行的內容定義爲value , 而後進行正則匹配,匹配成功則把結果 經過reduce聚合起來返回.Hadoop 就會把這個程序分佈到N 個結點去並行的操做。oop
這就是雲計算。若是不懂還有更簡單的例子大數據
好比 1億個 1 相加 得出計算結果, 咱們很輕易知道結果是 1億.可是計算機不知道,那麼單臺計算機處理的方式作一億次的循環,每次結果+1。
那麼分佈式的處理方式則變成 我用 1萬臺 計算機,每一個計算機只須要計算 1萬個 1 相加 ,而後再有一臺計算機把 1萬臺計算機獲得的結果再相加
從而獲得最後的結果.
理論上講, 計算速度就提升了 1萬倍. 固然上面多是一個不恰當的例子.但所謂分佈式,大數據,雲計算 大抵也就是這麼回事了.雲計算
hadoop擅長日誌分析,facebook、淘寶搜索中的 自定義篩選都使用的Hive。不只如此,Twitter、Yahoo也是用到Pig技術。spa
PS: .net
Hive是Hadoop生態圈中及其重要的一個組件。Hadoop生態的數據是存儲在HDFS中,而Hive能對其中的數據進行分析和管理。用戶經過命令行或JDBC可以使用Hive進行增刪改查等數據庫操做。
想更加了解hadoop的朋友能夠多瞭解Hive、Pig、Hbase,這篇文章能夠看下,相信會有很大幫助 Hadoop的Hive、Pig、Hbase
此文摘自: