數學之美:信息指紋及其應用

前面在介紹網絡爬蟲時說道爲了避免重複爬取,爬蟲需要維護一個url表來標記是否已經訪問該url。一個問題是這個url只是我們用於驗證是否訪問,而沒有其他作用。但網頁url長度很長,佔據100字節左右,這大大浪費了資源。所以需要我們對url進行信息壓縮,要求壓縮後的url佔據內存少,且不會出現重複問題。這就像對信息建立類似人類的指紋,用於驗證信息。這就涉及到加密算法md5,sha256等的使用。相信大
相關文章
相關標籤/搜索