如何從大量數據中找出高頻詞?

如何從大量數據中找出高頻詞? 題目描述 有一個 1GB 大小的文件,文件裏每一行是一個詞,每個詞的大小不超過 16B,內存大小限制是 1MB,要求返回頻數最高的 100 個詞(Top 100)。 解答思路 由於內存限制,我們依然無法直接將大文件的所有詞一次讀到內存中。因此,同樣可以採用分治策略,把一個大文件分解成多個小文件,保證每個文件的大小小於 1MB,進而直接將單個小文件讀取到內存中進行處理。
相關文章
相關標籤/搜索