大文件中返回頻數最高的100個詞

1.題目描述 有一個1G大小的一個文件,裏面每一行是一個詞,詞的大小不超過16字節,內存限制大小是1M,要求返回頻數最高的100個詞面試 2.思考過程 (1)參見個人其餘大數據面試題博文。此處1G文件遠遠大於1M內存,分治法,先hash映射把大文件分紅不少個小文件,具體操做以下:讀文件中,對於每一個詞x,取hash(x)%5000,而後按照該值存到5000個小文件(記爲f0,f1,...,f499
相關文章
相關標籤/搜索