[toc]html
經過示例項目,初步接觸spring boot,maven等經常使用工具,熟悉經常使用JAVA環境;使用經過httpclient獲取美食傑html數據,使用jsoup來解析html數據並抓取處理目標數據。java
IProcesser
實現類。
示例中會經過咱們的代碼獲取上圖中紅色標記的圖片並保存在本地;jquery
http://www.meishij.net/zuofa/ganzhematitiantang_1.html
(建議使用chrome),而後打開瀏覽器的開發者工具
快捷鍵F12
;在窗口中選中elements
頁面,而後經過元素選擇器選中目標圖片,html代碼會自動跳到圖片的html代碼;;在開發者工具console行裏實驗經過$("
.cp_headerimg_w img")
獲取的元素長度爲1,既經過.cp_headerimg_w img
就能夠直接獲取咱們的目標圖片位置;git
本次示例只是簡單找到目標,保存目標。具體代碼可參考示例代碼git地址,如今其實還有不少可優化改進的地方,下次咱們繼續。github
簡單說來就是如今互聯網上通訊http協議應用比較普遍 別人都用,愛用不用,擴展性好;另外java原生包提供基本的http功能,可是很差用,因此產生了HttpClient工具包。
HttpClient支持標準Http1.0/1.1;支持get,post,put,delete,head等http方法;支持https;支持http代理等等;基本上你能想到的關於http的特性,它都支持。
在本示例中,簡單使用httpclient來獲取html頁面字符串內容,後面示例會使用HttpClient的多線程,以及線程池功能。spring
jsoup可以把html的文本內容解析成html Document,經過相似jQuery
選擇器的用法,能方便的找到想要html內容。示例中要識別出http地址中的圖片地址。
TODO 配合美食節頁面, 瀏覽器查找截圖簡單說明jQuery selectorchrome
若是剛開始使用maven基本都會遇到一些問題:apache
C:\Users\xxx\.m2\repository
目錄下,是否存在pom依賴,或者把對應的依賴刪掉從新maven編譯下,例如依賴是groupid
:org.jsoup,artifactid
:jsoup,則對應的jar目錄是,既C:\Users\[xxx]\.m2\repository\[groupid]\[artifactid]\[version]
,指刪掉該依賴便可,不要全刪掉repository
,否則其它jar也要從新下。segmentfault