JAVA----爬蟲（一）JSoup

時間 2019-11-10

標籤 java 爬蟲 jsoup 欄目 Java 简体版

原文原文鏈接

jsoup 是一款Java 的HTML解析器，可直接解析某個URL地址、HTML文本內容。它提供了一套很是省力的API，可經過DOM，CSS以及相似於jQuery的操做方法來取出和操做數據。html

1、jsoup功能網站

簡單的例子：抓取wiki的主頁，解析成DOMurl

解析一個HTML字符串spa

目標多是用戶的一個html文件或網站的一個網頁html.須要對其進行解析並抓取所須要的數據-------Jsoup.parse()code

Jsoup.parse(String html)htm

Jsoup.parse(String html,String baseUri) 將輸入的HTML解析爲一個新的文檔 (Document），參數 baseUri 是用來將相對 URL 轉成絕對URL，並指定從哪一個網站獲取文檔blog

只要解析的不是空字符串，就能返回一個結構合理的文檔，其中包含(至少) 一個head和一個body元素。一旦擁有了一個Document，你就可使用Document中適當的方法或它父類 Element和Node中的方法來取得相關數據。文檔

解析一個body片斷字符串

一個HTML片段 (好比. 一個 div 包含一對 p 標籤; 一個不完整的HTML文檔) 想對它進行解析。這個HTML片段能夠是用戶提交的一條評論或在一個CMS頁面中編輯body部分------JSous.parseBodyFragment(String html)

parseBodyFragment 方法建立一個空殼的文檔，並插入解析過的HTML到body元素中.

Document.body() 方法可以取得文檔body元素的全部子元素，與 doc.getElementsByTag("body")相同。

從一個URL加載一個Document

須要從一個網站獲取和解析一個HTML文檔，並查找其中的相關數據------Jsoup.connect()

使用 Jsoup.connect(String url)方法:

connect(String url) 方法建立一個新的 Connection, 和get()方法一塊兒取得和解析一個html文件

若是從該URL獲取HTML時發生錯誤，便會拋出 IOException，應適當處理。這個方法只支持Web URLs (http和https 協議)

從一個文件加載document文檔

Jsoup.parse(File in, String charsetName, String baseUri)

相關標籤/搜索

每日一句

每一个你不满意的现在，都有一个你没有努力的曾经。