檢查網頁(url)重複

問題:有10億個url,每一個url對應一個很是大的網頁,如何檢測網頁是否重複。html 解答:web 網頁大,數量多,要把它們載入內存是不現實的。 所以咱們須要一個更簡短的方式來表示這些網頁。而hash表正是幹這事的。 咱們將網頁內容作哈希,而不是url,這裏不一樣url可能對應相同的網頁內容。算法 將每一個網頁轉換爲一個哈希值後,咱們就獲得了10億個哈希值, 很明顯,兩兩對比也是很是耗時的O(
相關文章
相關標籤/搜索