Focused crawling: a new approach to topic specific web resource discovery

論文地址: https://courses.cs.washington.edu/courses/cse454/05sp/papers/chakrabarti99focused.pdf 這是一篇非常詳細的論文,成於1999年,關於主題爬蟲引用數最高(高達2294次)的論文. 其具體做法是: 對種子url進行分類,其分類體系是樹狀的,並確保所有種子url都被分在葉子類目上,並訓練出分類模型(論文中詳細
相關文章
相關標籤/搜索