Heritrix總結及消重算法初探

好久沒有更新博客了。最後一次更新居然已經是一個月以前的事了。忍不住問自己,5月份都做了什麼?編程珠璣看了幾篇,但是沒有像之前那樣仔細去琢磨。數據壓縮好像就停留在SPIHT算法的理解上了。花了兩個星期搞了信息檢索的作業,老實說,還沒有做完。 我這部分的作業內容差不多是這樣的:改進Heritrix中的網頁消重方法。花了有一個多星期研究了Heritrix的總體構架。參考了網上的一些資料,自己也看了一些源
相關文章
相關標籤/搜索