java網絡爬蟲

#環境準備前端

  ##第三方工具包httpclient:抓取網頁數據  mysql

    *get請求正則表達式

    *帶參數get請求sql

    *post請求網絡

    *帶參數post請求框架

    *鏈接池ide

    *請求參數:時間工具

#Jsouppost

  *對頁面進行解析url

    *字符串處理工具

    *正則表達式

  *環境搭建

    *導入座標jsoup,以及其餘工具

  *解析url

  *解析字符串

  *解析文件

  *獲取屬性值

  *Selector選擇器

#WebMagic

  *爬蟲框架:基於jsoup和httpclient開發

  *核心容器spider:四大組件

    *下載

    *解析

    *去重

    *數據處理

  *數據流轉對象:三大

    *Pages:核心

    *Request:url封裝

    *ResultItems:Map

#爬蟲的分類

  *全網

  *聚焦

  *增量:只查最新的

  *隱藏的網頁

#EliasticSearch

  *使用WebMagic,爬蟲網絡,將數據存入mysql

  *用EliasticSearch將mysql數據創建索引庫,Luece中文分詞

  *將分析處理後的數據展現到前端

相關文章
相關標籤/搜索