利用Jsoup獲取網頁源碼,而後利用getElementsByTag()篩選img標籤,統計圖片數量。java
直接利用size()方法統計網頁源碼篇幅。web
想直接用Jsoup方法抓取,以下部分測試代碼段:數據庫
// 獲取目標HTML代碼 Elements elements1 = doc.select("[class=postDesc]"); // 獲取瀏覽數量 Elements elements2 = elements1.select("#post_view_count"); String browse = elements2.get(0).text(); System.out.println(browse); // 得到評論數量 Elements elements3 = elements1.select("#post_comment_count"); String comment = elements3.get(0).text(); System.out.println(comment);
而後兩個的抓取的結果都是「...」。json
而後尋找到瀏覽量頁面的url的規律:"http://www.cnblogs.com/mvc/blog/ViewCountCommentCout.aspx?postId="+"每一個學生的博客連接的postId"
以個人做業爲例子查看網頁源碼:
而後利用select("body").text()獲取瀏覽量。網絡
拼裝辦法:"http://www.cnblogs.com/mvc/blog/GetComments.aspx?postId="+postId+"&blogApp="+name+"&pageIndex=0&anchorCommentId=0";
查看網頁以下:
網頁源碼以下:
首先利用HttpClient獲取網頁html,而後利用json的方法得到commentCount的值。多線程
抓取圖片數量、文章幅度、瀏覽量、閱讀量:
得到評論量的實現:
mvc
採用多線程實現網頁數據抓取的關鍵代碼:
運行狀況:
數據庫:
post
此次java課程設計,咱們組一共五我的。咱們組提早一週,就天天晚上7點集合敲代碼。組長給每位同窗都安排好工做,而後每一個人都努力地完成工做。在集合敲代碼的時候,我對於數據庫和多線程的知識並不牢固,常常遇到瓶頸,這時候我會請教daiker,他對爬蟲的使用很瞭解。咱們採用導入庫的方法,利用jsoup、HttpEntity,抓取網頁上須要的數據。在使用這些庫的時候,不少方法都是實時百度,以網上代碼爲例,本身經過學習,學以至用,提高了本身解決問題的能力。最後,咱們的課程設計完成了,感謝組長和daiker的帶領。咱們經過課程設計,相互瞭解,相互促進,是一次很好的體驗。學習