Hadoop筆記系列 一 用Hadoop進行分佈式數據處理(1)

 

學習資料參考地址:sql

1.http://blog.csdn.net/zhoudaxia/article/details/8801769數據庫

 

1.先說說什麼是Hadoop?編程

  我的理解:一個分佈式文件存儲系統+一個分佈式計算框架,在其上還有不少的開源項目來豐富他的功能,如Hbase,hive等等。官方:Hadoop是一個用Java編寫的開源系統,可安排在大規模的計算平臺上,從而提升計算效率。本質上它只是一個海量數據處理平臺架構。網絡

2.Hadoop與MapReduce,有什麼關係?架構

  Hadoop生態圈的三個工具:第一,Hbase,最大化利用了內存。第二,HDFS,最大化利用了磁盤。第三,MapReduce,最大化利用了CPU。(Hbase,利用了Nosql數據庫,Key-Value存儲;HDFS,是hadoop distribute file system分佈式文件系統;MapReduce,編程模型,主要用來作數據分析)框架

3.Hadoop是在怎麼樣的一個環境中應用而生的,它最終解決了什麼問題?運用它以後,目前的發展方向是什麼樣的?分佈式

  信息時代數據的增加,好比天天在全球流通的Email。好比,某人在微博中發了不健康內容,咱們想在第一時間找出來,須要在海量數據中作搜索。好比某大型公司的日誌記錄,咱們須要離線處理海量數據,從中分析出用戶的一些消費習慣。那麼咱們要存儲,咱們要運算而且分析,可是硬盤存儲空間不夠,網絡帶寬受限,硬件故障不穩定。可是,咱們想以不多的代價完成這個tasks。因而產生了Hadoop。如google,會把淘汰的機器用於搭建一個Hadoop集羣。運用這個技術以後,咱們的海量技術獲得了長期保存,獲得了及時的處理很分析,集羣會自動備份,省去了咱們對硬件環境不穩定的擔心。目前,在國內阿里的這方面領先。工具

4.筆記摘要:oop

  Hadoop是一個分佈式數據處理框架。當搜索引擎須要收集數據時,數據量是極大的。此時,Hadoop 讓許多應用程序可以受益於並行數據處理。學習

五、Hadoop的安裝。

  首先,安裝Java™(至少是 1.6 版)和 cURL。

參考地址:http://blog.itpub.net/26230597/viewspace-1255651/

相關文章
相關標籤/搜索