dySE:一個 Java 搜索引擎的實現

    本系列文章將逐步介紹 dySE 這個開源的Java 小型搜索引擎的實現過程。該搜索引擎分爲三個模塊:爬蟲模塊、預處理模塊和搜索模塊。其中詳細闡述了: 多線程頁面爬取、正文內容提取、文本提取、分詞、索引建立、快照等功能的實現。本文將重點介紹 dySE 的整體結構和爬蟲模塊的設計與實現。     分三部分的系列將逐步說明如何設計和實現一個搜索引擎。在第一部分中,您將首先學習搜索引擎的工作原理,
相關文章
相關標籤/搜索