基於map-reduce的TopK詞頻統計

查詢全部記錄中搜索頻次最高的30個關鍵詞。 主要分兩個步驟,首先多個mapper分別處理全部數據中的一部分關鍵詞數據,而後彙總到reducer作詞頻統計。java CountWordMapper 在Mapper中處理每一小塊數據,使用HashMap存儲關鍵字及其頻次,能夠節省時間,key爲查詢的關鍵字。Mapper返回一個<Text , LongWritable>的列表,存儲當前文件塊中的關鍵字及
相關文章
相關標籤/搜索