[內附完整源碼和文檔] 基於python的新聞檢索系統

1 系統介紹 1.1 系統需求 新聞檢索系統:定向採集不少於 4 箇中文社會新聞網站或頻道,實現這些網站新聞信息及評論信息的自動爬取、抽取、索引和檢索。本項目未使用 lucene,Goose 等成熟開源框架。 1.2 系統思路與框架 本系統總體的實現思路如圖 1 所示: 一個完整的搜索系統主要的步驟是: 對新聞網頁進行爬蟲得到語料庫 抽取新聞的主體內容,得到結構化的 xml 數據 內存式單遍掃描索
相關文章
相關標籤/搜索