如何從大量數據中找出高頻詞?

如何從大量數據中找出高頻詞? 題目描述 有一個 1GB 大小的文件,文件裏每一行是一個詞,每一個詞的大小不超過 16B,內存大小限制是 1MB,要求返回頻數最高的 100 個詞(Top 100)。web 解答思路 因爲內存限制,咱們依然沒法直接將大文件的全部詞一次讀到內存中。所以,一樣能夠採用分治策略,把一個大文件分解成多個小文件,保證每一個文件的大小小於 1MB,進而直接將單個小文件讀取到內存中
相關文章
相關標籤/搜索