Jsoup是一個java html解析器。它是一個用於解析HTML文檔的java庫。Jsoup提供api來從URL或HTML文件中提取和操做數據。它使用DOM,CSS和相似css
Jquery的方法來提取和操做文件。html
jsoup api中有6個包,提供用於開發jsoup應用程序的類和接口。紅色標註的是經常使用的。java
org.jsoupnode
org.jsoup.examplesapi
org.jsoup.helperapp
org.jsoup.nodesspa
org.jsoup.parsercode
org.jsoup.safetyhtm
org.jsoup.salect對象
這個對象提供了一系列相似於DOM的方法來查找元素,抽取並處理其中的數據。具體以下:
(1)查找元素
getElementById(String id)
getElementsByTag(String tag)
getElementsByClass(String className)
getElementsByAttribute(String key) (and related methods)
Element siblings: siblingElements(), firstElementSibling(), lastElementSibling(); nextElementSibling(), previousElementSibling()
Graph: parent(), children(), child(int index)
attr(String key)獲取屬性attr(String key, String value)設置屬性
attributes()獲取全部屬性
id(), className() and classNames() 經過標籤的id,css的類名稱,全部css的類名稱獲取信息
text()獲取文本內容text(String value) 設置文本內容
html()獲取元素內HTMLhtml(String value)設置元素內的HTML內容
outerHtml()獲取元素外HTML內容
data()獲取數據內容(例如:script和style標籤)
tag() and tagName() 獲取標籤和標籤名稱
(3)操做HTML和文本
append(String html), prepend(String html)
appendText(String text), prependText(String text)
appendElement(String tagName),prependElement(String tagName)
html(String value)