jsoup使用樣式class抓取數據時空格的處理

時間 2019-11-12

標籤 jsoup 使用樣式 class 抓取數據空格處理欄目 Java 简体版

原文原文鏈接

最近在研究用android和jsoup抓取小說數據，jsoup的使用能夠參照http://www.open-open.com/jsoup/;在抓縱橫中文網永生這本書的目錄內容時碰到了問題，html

永生的書簡介url http://book.zongheng.com/book/48552.html中，我要抓取 <a class="button read" href="http://book.zongheng.com/showchapter/48552.html">點擊閱讀</a>這個連接的url 再根據這個url到索引頁，解析索引頁的章節目錄和連接。使用jsoup抓取class能夠直接這樣調用jquery

doc.select(".button read");嘗試後發現class中有空格沒法抓到對應連接。上百度搜了一圈找到http://hi.baidu.com/chen88358323/item/459090031758c691a3df4389web

這個解決方案不太好。想到jsoup和jquery的selec機制很像，又查到了http://zhidao.baidu.com/question/311666643.html。這篇文章頗有啓發。測試

最後通過測試發現帶空格的class能夠寫成兩個selecturl

寫成 Elements indexEs = doc.select(".button").select(".read");成功抓取該書全部目錄和連接。spa