JAVA----爬蟲(一)JSoup

 

 

jsoup 是一款Java 的HTML解析器,可直接解析某個URL地址、HTML文本內容。它提供了一套很是省力的API,可經過DOM,CSS以及相似於jQuery的操做方法來取出和操做數據。html

官方api:https://jsoup.org/api

1、jsoup功能網站

 

 

簡單的例子:抓取wiki的主頁,解析成DOMurl

 

解析一個HTML字符串spa

目標多是用戶的一個html文件或網站的一個網頁html.須要對其進行解析並抓取所須要的數據-------Jsoup.parse()code

Jsoup.parse(String html)htm

Jsoup.parse(String html,String baseUri)  將輸入的HTML解析爲一個新的文檔 (Document),參數 baseUri 是用來將相對 URL 轉成絕對URL,並指定從哪一個網站獲取文檔blog

只要解析的不是空字符串,就能返回一個結構合理的文檔,其中包含(至少) 一個head和一個body元素。一旦擁有了一個Document,你就可使用Document中適當的方法或它父類 ElementNode中的方法來取得相關數據。文檔

解析一個body片斷字符串

一個HTML片段 (好比. 一個 div 包含一對 p 標籤; 一個不完整的HTML文檔) 想對它進行解析。這個HTML片段能夠是用戶提交的一條評論或在一個CMS頁面中編輯body部分------JSous.parseBodyFragment(String html)

 

parseBodyFragment 方法建立一個空殼的文檔,並插入解析過的HTML到body元素中.

Document.body() 方法可以取得文檔body元素的全部子元素,與 doc.getElementsByTag("body")相同。

 

 

 

從一個URL加載一個Document

須要從一個網站獲取和解析一個HTML文檔,並查找其中的相關數據------Jsoup.connect()

使用 Jsoup.connect(String url)方法:

 

connect(String url) 方法建立一個新的 Connection, 和get()方法一塊兒取得和解析一個html文件

若是從該URL獲取HTML時發生錯誤,便會拋出 IOException,應適當處理。這個方法只支持Web URLs (httphttps 協議)

 

從一個文件加載document文檔

Jsoup.parse(File in, String charsetName, String baseUri) 

相關文章
相關標籤/搜索