jsoup 使用總結4--高級用法之 script js 腳本

jsoup 使用總結4--高級用法之 script js 腳本

大部分時候,咱們使用jsoup解析網頁的時候,都是直接找到某一類元素,或者按某種selector查詢;具體使用方法能夠參考jsoup官網文檔
那麼你有沒有實際操做過,查找script js 腳本呢,由於不少時候頁面的內容是根據js動態生成的,或者數據是動態變動;那麼這個時候,咱們只是獲取html頁面中script js腳本之間的內容。javascript

部分html代碼:html

<div class="example_row">
    <a href="http://www.example.com/news.html" target="_blank">真相</a></h3>
    <a href="http://www.example.com/news/cat/13" target="_blank">今日頭條</a>
    <a href="http://www.example.com/news/cat/16" target="_blank">各地新聞</a>
    <a href="http://www.example.com/news/cat/14" target="_blank">行業報告</a>
    <a href="http://www.example.com/news/cat/15" target="_blank">政府政策</a>
    <a href="http://www.example.com/news/cat/18" target="_blank">疾病防禦</a>
    <a href="http://www.example.com/news/cat/20" target="_blank">科普</a>
</div>
....
<script type="text/javascript">
    var result = {key1:value1, key2:value2 ...}
</script>

java代碼:java

Document doc = Jsoup.connect("www.example.com").timeout(0).get();
Elements links = doc.select("div.example_row").select("a");
for(Element link : links)
{
   String linkHref = link.attr("href"); 
   String linkText = link.text();
   ...
}
Element link = doc.select("a").first();
Element link_2 = doc.select("a").last();

上面的方式就能夠幫咱們查找到js 中的數據。正則表達式

還有一種我在實際工做中遇到的狀況, js 很複雜,並不像上面的那麼一會兒就能夠catch到:
html代碼:json

<script type="text/javascript">
     var result = {key1:value1, key2:value2 ...}
     var option_1 = {
color: ['#79b05f', '#e58c65'],
tooltip : {
    trigger: 'change'
},
legend: {
    data:['標準1','標準2']
},
xchange : [
    {
        type : 'category',
        boundaryGap : false,
        data : ["22\u65e501\u65f6","22\u65e502\u65f6","22\u65e502\u65f6","22\u65e503\u65f6","22\u65e503\u65f6","22\u65e504\u65f6","22\u65e504\u65f6","22\u65e505\u65f6","22\u65e505\u65f6","22\u65e506\u65f6","22\u65e506\u65f6","22\u65e507\u65f6","22\u65e507\u65f6","22\u65e508\u65f6","22\u65e508\u65f6","22\u65e509\u65f6","22\u65e509\u65f6","22\u65e58\u65f6","22\u65e58\u65f6","22\u65e511\u65f6","22\u65e511\u65f6","22\u65e512\u65f6","22\u65e512\u65f6","22\u65e513\u65f6"],
        changeLine: {
          lineStyle : {
            color: '#d4d4d4'
          }
        }
    }
],
ychange : [
    {
        type : 'value',
        changeLabel : {
            formatter: '{value}'
        },
        changeLine: {
          lineStyle : {
            color: '#d4d4d4'
          }
        }
    }
],
series : [
    {
        name:'標準1',
        type:'line',
        data:[37,37,37,162,162,167,167,40,40,44,44,46,46,48,48,47,47,166,166,39,39,38,38,163]          },
    {
        name:'標準2',
        type:'line',
        data:[83,84,84,12,12,124,124,132,132,20,20,24,24,28,28,25,25,123,123,88,88,85,85,2]          }
]
};
...
     
</script>

那麼針對這種狀況jsoup如何破解呢,享受在jsoup的便捷中,思考,搜索,仍然誤解;
發現這種問題jsoup還真解決不了。
那就換正則表達式試試。這裏推薦一個在線正則工具 regexr
換了正則,而後不停的try,終於ok了:
java 代碼:工具

Document doc = Jsoup.connect("www.example.com").timeout(0).get();
Elements scripts = doc.select("script");
for(Element script : scripts)
{
   if(script.html().contains("var option_1 =")) //注意這裏必定是html(), 而不是text()
   {
      String str = data.html().replace("\n", ""); //這裏是爲了解決 沒法多行匹配的問題
      String pattern = "var option_1 = \\{(.*?)\\};"; //()必須加,

      Pattern r = Pattern.compile(pattern,Pattern.MULTILINE);// Pattern.MULTILINE 好像沒有什麼用,因此才使用上面的replace
      Matcher m = r.matcher(str);
      if(m.find())
      {
        String option_1 = m.group();
        option_h24 = option_h24.replace("var option_1 = ", "");
        JSONObject json = new JSONObject(option_1);
         ...
      }
   }
   ...
}

但願能解決你手邊的問題。code

另外推薦閱讀jsoup的官網文檔,我80%的問題都在官網找到了方法。orm

相關文章
相關標籤/搜索