垂直搜索系統

畢業設計做了一個垂直搜索系統,主要完成的模塊包括網絡垂直爬蟲,網頁去重,網頁正文抽取,中文分詞,消歧系統,索引模塊,檢索模塊。   簡單點的系統示意圖如下:   上圖中,主要重點研究的模塊在中文分詞及消歧模塊上。這個是我畢業設計的核心內容。 網絡爬蟲:採用了多線程及簡單DNS緩存機制,多線程採用的是讀寫鎖,並未用到線程池。該爬蟲爲垂直爬蟲主要是在本科說開發的通用爬蟲上進行修改的。 網友去重及正文抽
相關文章
相關標籤/搜索