nutch 搜索site dedup

這個版本發現有個大大的bug,就是搜索時同一頁面出現重複,不同頁面也出現重複。即使有check dedup功能,也不起作用。 後來把代碼修改一個才行,被搞暈。。。     其實關鍵代碼就在於NutchBean.search(query)中。以下來分析一下。   public Hits search(Query query) throws IOException { if (query.ge
相關文章
相關標籤/搜索