Hadoop筆記系列一用Hadoop進行分佈式數據處理(1)

時間 2019-12-01

原文原文鏈接

學習資料參考地址：sql

1.http://blog.csdn.net/zhoudaxia/article/details/8801769數據庫

1.先說說什麼是Hadoop？編程

　　我的理解：一個分佈式文件存儲系統+一個分佈式計算框架，在其上還有不少的開源項目來豐富他的功能，如Hbase,hive等等。官方：Hadoop是一個用Java編寫的開源系統，可安排在大規模的計算平臺上，從而提升計算效率。本質上它只是一個海量數據處理平臺架構。網絡

2.Hadoop與MapReduce，有什麼關係？架構

　　Hadoop生態圈的三個工具：第一，Hbase，最大化利用了內存。第二，HDFS，最大化利用了磁盤。第三，MapReduce，最大化利用了CPU。(Hbase,利用了Nosql數據庫，Key-Value存儲；HDFS，是hadoop distribute file system分佈式文件系統；MapReduce，編程模型，主要用來作數據分析)框架

3.Hadoop是在怎麼樣的一個環境中應用而生的，它最終解決了什麼問題？運用它以後，目前的發展方向是什麼樣的？分佈式

　　信息時代數據的增加，好比天天在全球流通的Email。好比，某人在微博中發了不健康內容，咱們想在第一時間找出來，須要在海量數據中作搜索。好比某大型公司的日誌記錄，咱們須要離線處理海量數據，從中分析出用戶的一些消費習慣。那麼咱們要存儲，咱們要運算而且分析，可是硬盤存儲空間不夠，網絡帶寬受限，硬件故障不穩定。可是，咱們想以不多的代價完成這個tasks。因而產生了Hadoop。如google，會把淘汰的機器用於搭建一個Hadoop集羣。運用這個技術以後，咱們的海量技術獲得了長期保存，獲得了及時的處理很分析，集羣會自動備份，省去了咱們對硬件環境不穩定的擔心。目前，在國內阿里的這方面領先。工具

4.筆記摘要：oop

　　Hadoop是一個分佈式數據處理框架。當搜索引擎須要收集數據時，數據量是極大的。此時，Hadoop 讓許多應用程序可以受益於並行數據處理。學習

五、Hadoop的安裝。

　　首先，安裝Java™（至少是 1.6 版）和 cURL。

參考地址：http://blog.itpub.net/26230597/viewspace-1255651/