Java爬蟲利器HTML解析工具-Jsoup

時間 2019-11-06

標籤 java 爬蟲利器 html 解析工具 jsoup 欄目 Java 简体版

原文原文鏈接

Jsoup簡介
　　
　　Java爬蟲解析HTML文檔的工具備：htmlparser, Jsoup。本文將會詳細介紹Jsoup的使用方法，10分鐘搞定Java爬蟲HTML解析。
　　
　　Jsoup能夠直接解析某個URL地址、HTML文本內容，它提供很是豐富的處理Dom樹的API。若是你使用過JQuery，那你必定會很是熟悉。
　　
　　Jsoup最強大的莫過於它的CSS選擇器支持了。好比：document.select("div.content > div#image > ul > li:eq(2)。
　　
　　包引入方法
　　
　　Maven
　　
　　添加下面的依賴聲明便可，最新版本是（1.12.1）
　　
　　<dependency>
　　
　　
　　
　　<groupId>org.jsoup</groupId>
　　
　　<artifactId>jsoup</artifactId>
　　
　　<version>1.11.3</version>
　　
　　</dependency>
　　
　　Gradle
　　
　　// jsoup HTML parser library @ https://jsoup.org/
　　
　　compile 'org.jsoup:jsoup:1.11.3'
　　
　　源碼安裝
　　
　　固然也能夠直接把jar包下載下來，下載地址：https://www.xgjrfwsc.cn jsoup.org/download
　　
　　# git獲取代碼
　　
　　git clone https://www.yifayuLed.cn github.com/jhy/jsoup.git
　　
　　cd jsoup
　　
　　mvn install
　　
　　# 下載代碼
　　
　　curl -Lo jsoup.zip https://github.com/jhy/jsoup/archive/master.zip
　　
　　unzip jsoup.zip
　　
　　cd jsoup-master
　　
　　mvn install
　　
　　Jsoup解析方法
　　
　　Jsoup支持四種方式解析Document，便可以輸入四種內容獲得一個Document：
　　
　　解析字符串
　　
　　解析body片斷
　　
　　從一個URL解析
　　
　　從一個文件解析
　　
　　字符串解析示例
　　
　　字符串中必須包含head和body元素。
　　
　　String html = "<html><head><title>First parse</title></head>"
　　
　　+ "<body><p>Parsed HTML into a doc.</p></body></html>html