jsoup 是一款Java 的HTML解析器,可直接解析某個URL地址、HTML文本內容。它提供了一套很是省力的API,可經過DOM,CSS以及相似於jQuery的操做方法來取出和操做數據。html
官方api:https://jsoup.org/api
1、jsoup功能網站
簡單的例子:抓取wiki的主頁,解析成DOMurl
解析一個HTML字符串spa
目標多是用戶的一個html文件或網站的一個網頁html.須要對其進行解析並抓取所須要的數據-------Jsoup.parse()code
Jsoup.parse(String html)htm
Jsoup.parse(String html,String baseUri) 將輸入的HTML解析爲一個新的文檔 (Document),參數 baseUri 是用來將相對 URL 轉成絕對URL,並指定從哪一個網站獲取文檔blog
只要解析的不是空字符串,就能返回一個結構合理的文檔,其中包含(至少) 一個head和一個body元素。一旦擁有了一個Document,你就可使用Document中適當的方法或它父類 Element
和Node
中的方法來取得相關數據。文檔
解析一個body片斷字符串
一個HTML片段 (好比. 一個 div
包含一對 p
標籤; 一個不完整的HTML文檔) 想對它進行解析。這個HTML片段能夠是用戶提交的一條評論或在一個CMS頁面中編輯body部分------JSous.parseBodyFragment(String html)
parseBodyFragment
方法建立一個空殼的文檔,並插入解析過的HTML到body
元素中.
Document.body()
方法可以取得文檔body元素的全部子元素,與 doc.getElementsByTag("body")
相同。
從一個URL加載一個Document
須要從一個網站獲取和解析一個HTML文檔,並查找其中的相關數據------Jsoup.connect()
使用 Jsoup.connect(String url)
方法:
connect(String url)
方法建立一個新的 Connection
, 和get()方法一塊兒取得和解析一個html文件
若是從該URL獲取HTML時發生錯誤,便會拋出 IOException,應適當處理。這個方法只支持Web URLs (http
和https
協議)
從一個文件加載document文檔
Jsoup.parse(File in, String charsetName, String baseUri)