上一章介紹了hadoop的HDFS文件系統的原理及API使用。本章博主將繼續對hadoop的mapreduce編程框架進行分享。編程
mapreduce原理篇服務器
mapreduce是一個分佈式運算程序的編程框架,是用戶開發「基於hadoop的數據分析應用」的核心框架;mapreduce的核心功能是將用戶編寫的業務邏輯代碼和自帶的默認組件整合成一個完整的分佈式運算程序,併發運行在一個hadoop集羣上;併發
爲何要mapreduce:app
(1).海量數據在單機上處理由於硬件資源限制,沒法勝任框架
(2).而一旦將單機版程序擴展到集羣來分佈式運行,將極大增長程序的複雜度和開發難度分佈式
(3).引入mapreduce框架後,開發人員能夠將絕大部分工做集中在業務邏輯的開發上,而將分佈式計算中的複雜性交由框架來處理oop
mapreduce的總體結構包含:一個完整的mapreduce程序在分佈式運行時有三類實例進程;大數據
1.MRAppMaster(mapreduce application master):負責整個程序的過程調度及狀態協調
2.MapTask:負責map階段的整個數據處理流程
3.ReduceTask:負責reduce階段的整個數據處理流程spa
mapredcue核心框架設計思想:設計
最後寄語,以上是博主本次文章的所有內容,若是你們以爲博主的文章還不錯,請點贊;若是您對博主其它服務器大數據技術或者博主本人感興趣,請關注博主博客,而且歡迎隨時跟博主溝通交流。