如何從大量數據中找出高頻詞？

時間 2021-01-20

標籤隨筆简体版

原文原文鏈接

如何從大量數據中找出高頻詞？題目描述有一個 1GB 大小的文件，文件裏每一行是一個詞，每個詞的大小不超過 16B，內存大小限制是 1MB，要求返回頻數最高的 100 個詞(Top 100)。解答思路由於內存限制，我們依然無法直接將大文件的所有詞一次讀到內存中。因此，同樣可以採用分治策略，把一個大文件分解成多個小文件，保證每個文件的大小小於 1MB，進而直接將單個小文件讀取到內存中進行處理。

>>阅读原文<<