有10 億個 url，每一個 url 大小小於 56B，要求去重，內存只給你4G

時間 2019-12-01

標籤 url 每一個大小小於 56b 要求內存 4g 欄目 HTTP/TCP 简体版

原文原文鏈接

問題:有10 億個 url，每一個 url 大小小於 56B，要求去重，內存只給你4Ghtml

思路：url

1.首先將給定的url調用hash方法計算出對應的hash的value，在10億的url中相同url必然有着相同的value。日誌

2.將文件的hash table 放到第value%n臺機器上。htm

3.value/n是機器上hash table的值。blog

將文件分佈在多個機器上，這樣要處理網路延時。假設有n臺機器。排序

>>首先hash文件獲得hash value v內存

>>將文件的hash table 放到第v%n 臺機器上。hash

>>v/n是機器上hash table的值。table

分析：class

將文件的url進行hash，獲得值value，相同的url的文件具備相同的value，因此會被分配到同一臺機器v%n上。在同一臺機器上的重複的url文件具備相同的value/n值，若是出現了衝突，不一樣的url在同一臺機器上也可能有相同的value/n值。在每一個機器上將value/n值做爲key，url值做爲value構成hash表進行去重。最後將內存中去重後的hash表中的value值即url寫入磁盤。合併磁盤中的各部分url文件，完成去重。

56byte;

4G =4*1024=4096kb=4096*1024 byte;

--------

轉自：https://www.cnblogs.com/aspirant/p/7154551.html

假如每一個url大小爲10bytes，那麼能夠估計每一個文件的大小爲50G×64=320G，遠遠大於內存限制的4G，因此不可能將其徹底加載到內存中處理，能夠採用分治的思想來解決。

　　Step1：遍歷文件a，對每一個url求取hash(url)%1000，而後根據所取得的值將url分別存儲到1000個小文件(記爲a0,a1,...,a999，每一個小文件約300M);

　　Step2:遍歷文件b，採起和a相同的方式將url分別存儲到1000個小文件(記爲b0,b1,...,b999);

　　巧妙之處：這樣處理後，全部可能相同的url都被保存在對應的小文件(a0vsb0,a1vsb1,...,a999vsb999)中，不對應的小文件不可能有相同的url。而後咱們只要求出這個1000對小文件中相同的url便可。

　　Step3：求每對小文件ai和bi中相同的url時，能夠把ai的url存儲到hash_set/hash_map中。而後遍歷bi的每一個url，看其是否在剛纔構建的hash_set中，若是是，那麼就是共同的url，存到文件裏面就能夠了。

　　草圖以下(左邊分解A，右邊分解B，中間求解相同url)：