jsoup 從元素抽取屬性，文本和HTML

時間 2019-12-10

標籤 jsoup 元素抽取屬性文本 html 欄目 Java 简体版

原文原文鏈接

在運用爬蟲時，須要從網頁元素中抽取所須要的屬性，文本或者HTML ,在這裏，運用jsoup來獲取這些信息的話會很是方便。html

在運用jsoup是，須要下載相應的jar包java

如下是一個簡單的例子：3d

String html = "<p>An <a href='http://example.com/'><b>example</b></a> link.</p>";
Document doc = Jsoup.parse(html); //解析HTML字符串返回一個Document實現
Element link = doc.select("a").first(); //查找第一個a元素

String text = doc.body().text(); // "An example link"//取得字符串中的文本
String linkHref = link.attr("href"); // "http://example.com/"//取得連接地址
String linkText = link.text(); // "example""//取得連接地址中的文本

String linkOuterH = link.outerHtml(); // "<a href="http://example.com"><b>example</b></a>"
String linkInnerH = link.html(); // "<b>example</b>"//取得連接內的html內容

相關標籤/搜索