找到100億個URL中的重複URL以及搜索詞彙的topK問題

有一個包含100億個URL的文件,假設每個URL佔用64B,請找出其中所有重複的URL。 這類問題一種解決方案(我只想到了這一種)  將文件通過哈希函數成多個小的文件,由於哈希函數所有重複的URL只可能在同一個文件中,在每個文件中利用一個哈希表做次數統計。就能找到重複的URL。這時候要注意的就是給了多少內存,我們要根據文件大小結合內存大小決定要分割多少文件 topK問題和重複URL其實是一樣的重複
相關文章
相關標籤/搜索