[原創]一種基於Python爬蟲和Lucene檢索的垂直搜索引擎的實現方法介紹

時間 2019-11-11

標籤原創一種基於 python 爬蟲 lucene 檢索垂直搜索引擎實現方法介紹欄目 Python 简体版

原文原文鏈接

聲明：本文首發在博客園晨星落羽，Shulin_Cao和lvmememe首頁，轉載請註明出處。php

前言html

　　2016.5到2017.5，咱們三人（lvmememe，Shulin_Cao，晨星落羽）共同完成了一個本科生科研項目——簡體中文版兒童搜索引擎。在作的過程當中咱們發現，搜索引擎的框架其實都差很少，一些技術好比網頁爬蟲、網頁提取、信息檢索在大多數垂直搜索引擎中是通用的，只不過數據庫中存的資源不一樣而已。好比把全網資源都包羅進來，就成了百度，把購物信息包羅進來，就成了淘寶。所以就有了這篇文章，把咱們在作項目的過程當中用到的技術分享出來，但願可以對搜索引擎感興趣的朋友有所幫助。本文會詳細說明項目中咱們已經實現的功能使用的技術，同時也會闡述一些咱們但願之後可能會實現的功能。本文指望達到的效果是，一年之後，當我已經忘記如今用到的技術細節，本身再照着這篇文章作，依然能夠作出一個一樣的搜索引擎。
前端

　　事實上，本文介紹的框架是一種最基本的簡易框架，項目的完成也不表明項目的完善，咱們還有許多功能鑑於時間限制和自身水平的限制，暫時沒有實現。這些功能在文章中也會說起，只是沒法展開細講。尤爲是機器學習、人工智能、數據挖掘等技術，在本文中不會涉及，本文關注更多的是網頁爬蟲（信息獲取）、詞條排序（信息檢索）、前端後端通信（信息展現），用到的語言主要包括Python、Java、PHP和前端網頁製做的語言。
java

　　目前，項目已經發表了五篇論文，包括三篇中文期刊和兩篇國際會議。python

　　　　1. 兒童搜索引擎的現狀與分析mysql

　　　　2. 面向搜索引擎的結構化信息生成系統的設計與實現git

　　　　3. 基於 Lucene 與 Socket 通訊的中文搜索引擎的設計與實現github

　　　　4. An Algorithm to Extract and Judge the Main Text Based on the Law of Total Probabilitysql

　　　　5. KidSE: A Search Engine Designed for Children which Supports Simplified Chinese數據庫

　　其中，第一篇論文目前已經發表，後面四篇已經收到錄用通知等待發表。本文的不少想法也都是對論文中的內容進行整合。後續發表後會對論文連接進行更新。

　　或許在專業人士看來，本文所講解的技術也只是幾十年前的古老技術，可是咱們寫這篇博客的目的也不是炫耀本身的技術有多高超，只是想分享一下本身的成果。但願大牛們諒解咱們做爲低年級本科生水平有限，對於文章的錯誤，歡迎批評指正，若是有好的想法，也歡迎多多交流！

　　項目github：https://github.com/1049451037/kidsearch

　　事實上，這篇博客的樣例工程並非兒童搜索引擎，按照這篇文章作完以後，會作成一個文章搜索引擎，它經過全網自動判別文章類網頁，並提取內容，自動入庫，天下文章，皆爲我有。是否是很期待？那咱們開始吧！

　　1. 垂直搜索引擎的介紹

　　　　1.1 垂直搜索引擎的概念