1、Hadoop的簡介網絡
1.Hadoop:一個開源,高可靠,可擴展的分佈式計算框架框架
2.Hadoop解決的問題:分佈式
(1)海量數據的存儲(HDFS):分佈式文件系統,有兩個好處,函數
(a)能夠動態添加存儲系統,這樣存儲就不會受到限制 (b)元數據備份,這裏默認備份三分,能夠修改
(2)海量數據的分析(MapReduce):分而自知,能夠把數據分紅多分,並行分析處理oop
(3)分佈式資源調度(Yarn):集羣之間的調度,好比:CPU、內存等搜索引擎
3.特色.net
擴容能力比較強日誌
成本低(普通PC機均可以)code
高效率(Hadoop會對數據進行分片處理)blog
可靠性(自動備份,自動找回數據等功能)
4.應用場景
5.Hadoop項目主要模塊包括如下四個模塊
(1)Hadoop Common:爲其餘的Hadoop模塊提供基礎設施
(2)Hadoop HDFS:一個可靠、吞吐量的分佈式文件系統
(3)Hadoop MapReduce:一個分佈式的離線並行計算框架
(4)Hadoop YARN:一個新的MapReduce框架,任務調度與資源管理
2、MapReduce的使用
1.MapReduce(分佈式計算框架)
(1)Map任務處理
(2)Reduce任務處理
轉載請註明出處:
【定陶黃公子】