Springboot 解析 json 並返回+ Jsoup介紹及解析經常使用方法

一、配置pom.xml

<dependency>
             <groupId>org.jsoup</groupId>
             <artifactId>jsoup</artifactId>
             <version>1.11.2</version>
    </dependency>
        
        <dependency>
            <groupId>com.alibaba</groupId>
            <artifactId>fastjson</artifactId>
            <version>1.2.9</version>
        </dependency>

二、編寫模型類

 1 package com.example.model;  2 
 3 public class NewBean {  4     private String title;  5     private String content;  6     private String imgUrl;  7     private String urlA;  8 
 9     public NewBean() { 10 
11  } 12 
13     public NewBean(String title, String content, 14  String imgUrl, String urlA) { 15         super(); 16         this.title = title; 17         this.content = content; 18         this.imgUrl = imgUrl; 19         this.urlA = urlA; 20  } 21 
22     public String getTitle() { 23         return title; 24  } 25 
26     public void setTitle(String title) { 27         this.title = title; 28  } 29 
30     public String getContent() { 31         return content; 32  } 33 
34     public void setContent(String content) { 35         this.content = content; 36  } 37 
38     public String getImgUrl() { 39         return imgUrl; 40  } 41 
42     public void setImgUrl(String imgUrl) { 43         this.imgUrl = imgUrl; 44  } 45 
46     public String getUrlA() { 47         return urlA; 48  } 49 
50     public void setUrlA(String urlA) { 51         this.urlA = urlA; 52  } 53 
54  @Override 55     public String toString() { 56         return "NewBean:[title=" + title + ", content=" + content + ", imgUrl=" + imgUrl + "urlA" + urlA + "]"; 57  } 58 }

三、編寫控制類

 1 package com.example.controller;  2 
 3 import java.util.ArrayList;  4 import java.util.List;  5 
 6 import org.springframework.boot.autoconfigure.SpringBootApplication;  7 import org.springframework.web.bind.annotation.RequestMapping;  8 import org.springframework.web.bind.annotation.RestController;  9 import java.io.IOException; 10 
11 import org.jsoup.Jsoup; 12 import org.jsoup.nodes.Document; 13 import org.jsoup.nodes.Element; 14 import org.jsoup.select.Elements; 15 
16 import com.alibaba.fastjson.JSON; 17 import com.example.model.NewBean; 18 
19 @SpringBootApplication 20 @RestController 21 public class SpringTestApplication { 22 
23     @RequestMapping("hello") 24     public String hello(){ 25         return "hello"; 26  } 27     
28     
29     @RequestMapping("json") 30     public static String getNew(int i) { 31         String url = "http://www.cnmo.com/news/all_" + i + ".html"; 32         List<NewBean> list_bean = new ArrayList<>(); 33  NewBean newbean; 34         try { 35             Document doc = Jsoup.connect(url).get(); 36             // 獲取class等於Newcon的div標籤
37             Element contents = doc.select("div.Newcon").first(); 38             Elements content = contents.getElementsByClass("Newcon-list"); 39             for (Element element : content) { 40                 Elements linka = element.getElementsByTag("a"); 41                 String linkHref = linka.get(0).attr("href"); 42                 String linkText = linka.get(0).text(); 43                 Elements linkimg = element.getElementsByTag("img"); 44                 String linkSrc = linkimg.get(0).attr("src"); 45                 Elements linkp = element.getElementsByTag("p"); 46                 String linktxt = linkp.get(0).text(); 47                 // 這裏把內部類修飾爲static因此直接new
48                 newbean = new NewBean(linkText, linktxt, linkSrc, linkHref); 49  list_bean.add(newbean); 50  } 51             // 使用了阿里的fastJson,其它json框架也能夠,true是格式化
52             String json = JSON.toJSONString(list_bean, true); 53             return json; 54         } catch (IOException e) { 55             // e.printStackTrace();
56             return null; 57  } 58  } 59     
60     
61 }

四、編寫啓動類

package com.example.controller; import org.springframework.boot.SpringApplication; import org.springframework.boot.autoconfigure.SpringBootApplication; @SpringBootApplication public class SpringDemoApplication { public static void main(String[] args) { SpringApplication.run(SpringDemoApplication.class, args); } }

 

Jsoup介紹及解析經常使用方法

jsoup 是一款 Java 的HTML 解析器,可直接解析某個URL地址、HTML文本內容。它提供了一套很是省力的API,可經過DOM,CSS以及相似於JQuery的操做方法來取出和操做數據

jsoup的主要功能以下:
從一個URL,文件或字符串中解析HTML; 
使用DOM或CSS選擇器來查找、取出數據; 
可操做HTML元素、屬性、文本; 

jsoup解析
Jsoup提供一系列的靜態解析方法生成Document對象
static Document parse(File in, String charsetName)
static Document parse(File in, String charsetName, String baseUri)
static Document parse(InputStream in, String charsetName, String baseUri)
static Document parse(String html)
static Document parse(String html, String baseUri)   
static Document parse(URL url, int timeoutMillis)
static Document parseBodyFragment(String bodyHtml)
static Document parseBodyFragment(String bodyHtml, String baseUri) 
其中baseUri表示檢索到的相對URL是相對於baseUriURL的 
其中charsetName表示字符集

Connection connect(String url) 根據給定的url(必須是http或https)來建立鏈接

Connection 提供一些方法來抓去網頁內容
Connection cookie(String name, String value) 發送請求時放置cookie 
Connection data(Map<String,String> data) 傳遞請求參數 
Connection data(String... keyvals) 傳遞請求參數
Document get() 以get方式發送請求並對返回結果進行解析
Document post()以post方式發送請求並對返回結果進行解析 
Connection userAgent(String userAgent) 
Connection header(String name, String value) 添加請求頭
Connection referrer(String referrer) 設置請求來源

jsoup提供相似JS獲取html元素:
getElementById(String id) 用id得到元素
getElementsByTag(String tag) 用標籤得到元素
getElementsByClass(String className) 用class得到元素
getElementsByAttribute(String key)  用屬性得到元素
同時還提供下面的方法提供獲取兄弟節點:siblingElements(), firstElementSibling(), lastElementSibling();nextElementSibling(), previousElementSibling()

得到與設置元素的數據
attr(String key)  得到元素的數據 attr(String key, String value) 設置元素數據 
attributes() 得到因此屬性
id(), className()  classNames() 得到id class得值
text()得到文本值
text(String value) 設置文本值
html() 獲取html 
html(String value)設置html
outerHtml() 得到內部html
data()得到數據內容
tag()  得到tag 和 tagName() 得到tagname 

操做html元素:
append(String html), prepend(String html)
appendText(String text), prependText(String text)
appendElement(String tagName), prependElement(String tagName)
html(String value)

jsoup還提供了相似於JQuery方式的選擇器
採用選擇器來檢索數據
tagname 使用標籤名來定位,例如 a 
ns|tag     使用命名空間的標籤訂位,例如 fb:name 來查找 <fb:name> 元素 
#id     使用元素 id 定位,例如 #logo 
.class     使用元素的 class 屬性定位,例如 .head 
*     定位全部元素 
[attribute] 使用元素的屬性進行定位,例如 [href] 表示檢索具備 href 屬性的全部元素 
[^attr] 使用元素的屬性名前綴進行定位,例如 [^data-] 用來查找 HTML5 的 dataset 屬性 
[attr=value]使用屬性值進行定位,例如 [width=500] 定位全部 width 屬性值爲 500 的元素 
[attr^=value],[attr$=value],[attr*=value] 這三個語法分別表明,屬性以 value 開頭、結尾以及包含 
[attr~=regex]使用正則表達式進行屬性值的過濾,例如 img[src~=(?i)\.(png|jpe?g)] 
以上是最基本的選擇器語法,這些語法也能夠組合起來使用

組合用法
el#id      定位id值某個元素,例如 a#logo -> <a id=logo href= … > 
el.class 定位 class 爲指定值的元素,例如 div.head -> <div class="head">xxxx</div> 
el[attr] 定位全部定義了某屬性的元素,例如 a[href] 
以上三個任意組合     例如 a[href]#logo 、a[name].outerlink 

除了一些基本的語法以及這些語法進行組合外,jsoup 還支持使用表達式進行元素過濾選擇
:lt(n)     例如 td:lt(3) 表示小於三列 
:gt(n)     div p:gt(2) 表示 div 中包含 2 個以上的 p 
:eq(n)     form input:eq(1) 表示只包含一個 input 的表單 
:has(seletor)     div:has(p) 表示包含了 p 元素的 div 
:not(selector)     div:not(.logo) 表示不包含 class="logo" 元素的全部 div 列表 
:contains(text)     包含某文本的元素,不區分大小寫,例如 p:contains(oschina) 
:containsOwn(text)     文本信息徹底等於指定條件的過濾 
:matches(regex)     使用正則表達式進行文本過濾:div:matches((?i)login) 

:matchesOwn(regex)     使用正則表達式找到自身的文本 html

——————————————————————————————————————————————————————————
//url網址做爲輸入源
Document doc = Jsoup.connect("http://www.example.com").timeout(60000).get();
//File文件做爲輸入源
File input = new File("/tmp/input.html");
Document doc = Jsoup.parse(input, "UTF-8", "http://www.example.com/");
//String做爲輸入源
Document doc = Jsoup.parse(htmlStr);
和java script相似,Jsoup提供了下列的函數
getElementById(String id) 經過id得到元素
getElementsByTag(String tag) 經過標籤得到元素
getElementsByClass(String className) 經過class得到元素
getElementsByAttribute(String key) 經過屬性得到元素

同時還提供下面的方法提供獲取兄弟節點:
siblingElements(), firstElementSibling(), lastElementSibling();nextElementSibling(), previousElementSibling()

用下面方法得到元素的數據: 
attr(String key) 得到元素的數據
attr(String key, String value) 設置元素數據
attributes() 得到全部屬性
id(), className() classNames() 獲得id class的值
text()獲得文本值
text(String value) 設置文本值
html() 獲取html 
html(String value)設置html
outerHtml() 得到內部html
data()得到數據內容
tag() 獲得tag 和 tagName() 獲得tagname
操做html提供了下面方法: append(String html), prepend(String html) appendText(String text), prependText(String text) appendElement(String tagName), prependElement(String tagName) html(String value)
相關文章
相關標籤/搜索