轉載自:http://blog.csdn.net/zhejingyuan/article/details/11801027css
方法
利用方法:Element.select(String selector)和Elements.select(String selector)。html
File input = new File("/tmp/input.html");
Document doc = Jsoup.parse(input, "UTF-8", "http://example.com/");
Elements links = doc.select("a[href]"); // a with href
Elements pngs = doc.select("img[src$=.png]"); // img with src ending .png
Element masthead = doc.select("div.masthead").first();
// div with class=masthead
Elements resultLinks = doc.select("h3.r > a"); // direct a after h3java
描述
Jsoup的元素支持相似CSS或(jquery)的選擇器語法的查找匹配的元素,可實現功能強大且魯棒性好的查詢。node
jsoup elements support a CSS(or jquery) like selector syntax to find matching elements, that allows very powerful and robust queries.jquery
Select方法可做用於Document、Element或Elements,且是上下文相關的,所以可實現指定元素的過濾,或者鏈式選擇訪問。css3
The selectmethod is available in a Document, Element, or in Elements. It is contextual, so you can filter by selecting from a specific element, or by chaining select calls.正則表達式
選擇(操做)返回元素列表(Elements),並提供一組方法來提取或處理結果。api
Select returns a list of Elements (as Elements), which provides a range of methods to extract and manipulate the results.ide
選擇器概要(Selector overview)
- Tagname:經過標籤查找元素(例如:a)
- ns|tag:經過標籤在命名空間查找元素,例如:fb|name查找<fb:name>元素
- #id:經過ID查找元素,例如#logo
- .class:經過類型名稱查找元素,例如.masthead
- [attribute]:帶有屬性的元素,例如[href]
- [^attr]:帶有名稱前綴的元素,例如[^data-]查找HTML5帶有數據集(dataset)屬性的元素
- [attr=value]:帶有屬性值的元素,例如[width=500]
- [attr^=value],[attr$=value],[attr*=value]:包含屬性且其值以value開頭、結尾或包含value的元素,例如[href*=/path/]
- [attr~=regex]:屬性值知足正則表達式的元素,例如img[src~=(?i)\.(png|jpe?g)]
- *:全部元素,例如*
選擇器組合方法
- el#id::帶有ID的元素ID,例如div#logo
- el.class:帶類型的元素,例如. div.masthead
- el[attr]:包含屬性的元素,例如a[href]
- 任意組合:例如a[href].highlight
- ancestor child:繼承自某祖(父)元素的子元素,例如.body p查找「body」塊下的p元素
- parent > child:直接爲父元素後代的子元素,例如: div.content > pf查找p元素,body > * 查找body元素的直系子元素
- siblingA + siblingB:查找由同級元素A前導的同級元素,例如div.head + div
- siblingA ~ siblingX:查找同級元素A前導的同級元素X例如h1 ~ p
- el, el, el:多個選擇器組合,查找匹配任一選擇器的惟一元素,例如div.masthead, div.logo
僞選擇器(Pseudo selectors)
- :lt(n):查找索引值(即DOM樹中相對於其父元素的位置)小於n的同級元素,例如td:lt(3)
- :gt(n):查找索引值大於n的同級元素,例如div p:gt(2)
- :eq(n) :查找索引值等於n的同級元素,例如form input:eq(1)
- :has(seletor):查找匹配選擇器包含元素的元素,例如div:has(p)
- :not(selector):查找不匹配選擇器的元素,例如div:not(.logo)
- :contains(text):查找包含給定文本的元素,大小寫銘感,例如p:contains(jsoup)
- :containsOwn(text):查找直接包含給定文本的元素
- :matches(regex):查找其文本匹配指定的正則表達式的元素,例如div:matches((?i)login)
- :matchesOwn(regex):查找其自身文本匹配指定的正則表達式的元素
- 注意:上述僞選擇器是0-基數的,亦即第一個元素索引值爲0,第二個元素index爲1等
在jsoup中,僞選擇器的使用:函數
div.authi>a:eq(10);
其中,10是index,表示a爲div中子元素的第11個,索引值從0開始。
index只是代表子元素的序號,區別用來過濾的 .eq() 函數