HDFS、MapReduce設計概念、基礎架構、Python代碼實現、常用命令（三）

時間 2021-01-16

原文原文鏈接

咱們來看看對特別大的文件統計，整個過程是如何分拆的。大家想想詞頻統計的過程，如果是單機完成，我們需要做的事情是維護一個計數器字典，對每次出現的詞，詞頻+1.但是當數據量非常大的時候，沒辦法在內存中維護這麼大的一個字典，我們就要換一種思路來完成這個任務了，也就是我們所謂的map-reduce過程。大體的過程畫成圖是下面這個樣子：大概是分成下面幾個環節： map階段主要完成key-value對

>>阅读原文<<