HDFS、MapReduce設計概念、基礎架構、Python代碼實現、常用命令(三)

咱們來看看對特別大的文件統計,整個過程是如何分拆的。 大家想想詞頻統計的過程,如果是單機完成,我們需要做的事情是維護一個計數器字典,對每次出現的詞,詞頻+1.但是當數據量非常大的時候,沒辦法在內存中維護這麼大的一個字典,我們就要換一種思路來完成這個任務了,也就是我們所謂的map-reduce過程。 大體的過程畫成圖是下面這個樣子: 大概是分成下面幾個環節: map階段 主要完成key-value對
相關文章
相關標籤/搜索