jsoup select 選擇器

轉載自:http://blog.csdn.net/zhejingyuan/article/details/11801027css


方法

利用方法:Element.select(String selector)Elements.select(String selector)html

File input = new File("/tmp/input.html");
Document doc = Jsoup.parse(input, "UTF-8", "http://example.com/");
Elements links = doc.select("a[href]"); // a with href
Elements pngs = doc.select("img[src$=.png]");  // img with src ending .png
Element masthead = doc.select("div.masthead").first();
  // div with class=masthead
Elements resultLinks = doc.select("h3.r > a"); // direct a after h3java

描述

Jsoup的元素支持相似CSS或(jquery)的選擇器語法的查找匹配的元素,可實現功能強大且魯棒性好的查詢。node

jsoup elements support a CSS(or jquery) like selector syntax to find matching elements, that allows very powerful and robust queries.jquery

Select方法可做用於DocumentElementElements,且是上下文相關的,所以可實現指定元素的過濾,或者鏈式選擇訪問。css3

The selectmethod is available in a DocumentElement, or in Elements. It is contextual, so you can filter by selecting from a specific element, or by chaining select calls.正則表達式

選擇(操做)返回元素列表(Elements),並提供一組方法來提取或處理結果。api

Select returns a list of Elements (as Elements), which provides a range of methods to extract and manipulate the results.ide

選擇器概要(Selector overview)

  • Tagname:經過標籤查找元素(例如:a)
  • ns|tag:經過標籤在命名空間查找元素,例如:fb|name查找<fb:name>元素
  • #id:經過ID查找元素,例如#logo
  • .class:經過類型名稱查找元素,例如.masthead
  • [attribute]:帶有屬性的元素,例如[href]
  • [^attr]:帶有名稱前綴的元素,例如[^data-]查找HTML5帶有數據集(dataset)屬性的元素
  • [attr=value]:帶有屬性值的元素,例如[width=500]
  • [attr^=value],[attr$=value],[attr*=value]:包含屬性且其值以value開頭、結尾或包含value的元素,例如[href*=/path/]
  • [attr~=regex]:屬性值知足正則表達式的元素,例如img[src~=(?i)\.(png|jpe?g)]
  • *:全部元素,例如*

選擇器組合方法

  • el#id::帶有ID的元素ID,例如div#logo
  • el.class:帶類型的元素,例如. div.masthead
  • el[attr]:包含屬性的元素,例如a[href]
  • 任意組合:例如a[href].highlight
  • ancestor child:繼承自某祖(父)元素的子元素,例如.body p查找「body」塊下的p元素
  • parent > child:直接爲父元素後代的子元素,例如: div.content > pf查找p元素,body > * 查找body元素的直系子元素
  • siblingA + siblingB:查找由同級元素A前導的同級元素,例如div.head + div
  • siblingA ~ siblingX:查找同級元素A前導的同級元素X例如h1 ~ p
  • el, el, el:多個選擇器組合,查找匹配任一選擇器的惟一元素,例如div.masthead, div.logo

僞選擇器(Pseudo selectors)

  • :lt(n):查找索引值(即DOM樹中相對於其父元素的位置)小於n的同級元素,例如td:lt(3)
  • :gt(n):查找索引值大於n的同級元素,例如div p:gt(2)
  • :eq(n) :查找索引值等於n的同級元素,例如form input:eq(1)
  • :has(seletor):查找匹配選擇器包含元素的元素,例如div:has(p)
  • :not(selector):查找不匹配選擇器的元素,例如div:not(.logo)
  • :contains(text):查找包含給定文本的元素,大小寫銘感,例如p:contains(jsoup)
  • :containsOwn(text):查找直接包含給定文本的元素
  • :matches(regex):查找其文本匹配指定的正則表達式的元素,例如div:matches((?i)login)
  • :matchesOwn(regex):查找其自身文本匹配指定的正則表達式的元素
  • 注意:上述僞選擇器是0-基數的,亦即第一個元素索引值爲0,第二個元素index爲1等

在jsoup中,僞選擇器的使用:函數

div.authi>a:eq(10);

         其中,10是index,表示a爲div中子元素的第11個,索引值從0開始。

         index只是代表子元素的序號,區別用來過濾的 .eq() 函數

相關文章
相關標籤/搜索