基於Python檢索系統(1)總體介紹

爲了實現將上海理工大學的新聞可以進行關鍵詞、關鍵字的檢索,設計了基於Python的檢索系統。 系統主要分爲四部分,爬蟲、中文分詞、建立倒排索引、檢索接口。 1、爬蟲 將上海理工大學的新聞中心(http://www.usst.edu.cn/s/1/t/517/p/2/i/411/list.htm)的標題或全文爬取下來,存入TXT文件。簡單的應用正則表達式(re模塊)和字符串的處理即可實現。 2、中文
相關文章
相關標籤/搜索