大量的URL 字符串,如何從中去除重複的,優化時間空間複雜度

一、內存夠用,將URL存入hash鏈表,每一個URL讀入到hash鏈表中,遇到重複的就捨棄,不然加入到鏈表裏面,最後遍歷獲得全部不重複的URL。函數 二、若是受內存限制,構造一個hash函數,把url適當散列到若干個好比1000個小文件中,而後在每一個小文件中去除重複的url,再把他們合併。url 原理是相同的url,hash以後的散列值仍然是相同的。spa
相關文章
相關標籤/搜索