下圖是一個典型的,互聯網分層架構:
html
同一個層次的內部,例如端上的APP,以及web-server,也都會進行MVC分層:
web
工程師骨子裏,都潛移默化的實施着分層架構設計。數據庫
互聯網分層架構的本質到底是什麼呢?
若是咱們仔細思考會發現,無論是跨進程的分層架構,仍是進程內的MVC分層,都是一個「數據移動」,而後「被處理」和「被呈現」的過程。
如上圖所示:
數據處理和呈現,須要CPU計算,而CPU是固定不動的:json
而數據是移動的:瀏覽器
歸根結底一句話:互聯網分層架構,是一個CPU固定,數據移動的架構。
畫外音:更詳細的分析,詳見《互聯網分層架構的本質》。緩存
假如MapReduce也使用相似的的分層架構模式:
提早部署服務:
map服務層:接收輸入數據,產出「分」的數據,集羣部署M=1W個實例
reduce服務層:接受「合」的數據,產出最終數據,集羣部署R=1W個實例服務器
當用戶提交做業時:
(1) 把數據數據傳輸給map服務集羣;
(2) map服務集羣產出結果後,把數據傳輸給reduce服務集羣;
(3) reduce服務集羣把結果傳輸給用戶;網絡
將有大量的時間浪費在大量數據的網絡傳輸上。
畫外音:輸入給map,map給reduce,reduce給用戶。架構
會發現,「固定CPU,移動數據」的架構並不適合。ide
問了減小數據量的傳輸:
(1) 輸入數據,被分割爲M塊後,master會盡可能將執行map函數的worker實例,啓動在輸入數據所在的服務器上;
畫外音:不須要網絡傳輸了。
(2) map函數的worker實例輸出的的結果,會被分區函數劃分紅R塊,寫到worker實例所在的本地磁盤;
畫外音:不須要網絡傳輸了。
(3) reduce函數,因爲有M個輸入數據源(M個map的輸出都有一部分數據可能對應到一個reduce的輸入數據),因此,master會盡可能將執行reduce函數的worker實例,啓動在離這些輸入數據源儘量「近」的服務器上;
畫外音:目的也是最小化網絡傳輸;
服務器之間的「近」,能夠用內網IP地址的類似度衡量。
因此,對於MapReduce系統架構,「固定數據,移動CPU」更爲合理。
互聯網在線業務的特色是:
MapReduce離線業務的特色是:
任何脫離業務的架構設計,都是耍流氓。
思考問題的本質,但願你們有收穫。
架構師之路-分享可落地的技術文章
相關推薦:《GFS架構啓示》《Google MapReduce解決什麼問題?》《Google MapReduce巧妙優化思路?》《Google MapReduce架構設計實踐》《互聯網分層架構的本質》