#環境準備前端
##第三方工具包httpclient:抓取網頁數據 mysql
*get請求正則表達式
*帶參數get請求sql
*post請求網絡
*帶參數post請求框架
*鏈接池ide
*請求參數:時間工具
#Jsouppost
*對頁面進行解析url
*字符串處理工具
*正則表達式
*環境搭建
*導入座標jsoup,以及其餘工具
*解析url
*解析字符串
*解析文件
*獲取屬性值
*Selector選擇器
#WebMagic
*爬蟲框架:基於jsoup和httpclient開發
*核心容器spider:四大組件
*下載
*解析
*去重
*數據處理
*數據流轉對象:三大
*Pages:核心
*Request:url封裝
*ResultItems:Map
#爬蟲的分類
*全網
*聚焦
*增量:只查最新的
*隱藏的網頁
#EliasticSearch
*使用WebMagic,爬蟲網絡,將數據存入mysql
*用EliasticSearch將mysql數據創建索引庫,Luece中文分詞
*將分析處理後的數據展現到前端