想找一些圖片作桌面背景,可是又不想一張張去下載,後來就想到了爬蟲。。。html
對於爬蟲我也沒具體用過,在網上一頓搜索後寫了個小demo。java
爬蟲的具體思路就是:node
1.調用url爬取網頁信息spring
2.解析網頁信息mongodb
3.保存數據apache
剛開始還用正則去匹配,獲取img標籤中的src地址,可是發現有不少不便(主要我正則不太會),後來發現了jsoup這個神器。 jsoup 是一款Java 的HTML解析器,可直接解析某個URL地址、HTML文本內容。它提供了一套很是省力的API,可經過DOM,CSS以及相似於jQuery的操做方法來取出和操做數據。瀏覽器
如下就用爬取圖片爲例:緩存
import com.crawler.domain.PictureInfo; import org.bson.types.ObjectId; import org.springframework.data.mongodb.core.MongoTemplate; import org.springframework.data.mongodb.gridfs.GridFsTemplate; import org.springframework.stereotype.Service; import org.apache.commons.io.FileUtils; import org.apache.http.HttpEntity; import org.apache.http.client.ClientProtocolException; import org.apache.http.client.methods.CloseableHttpResponse; import org.apache.http.client.methods.HttpGet; import org.apache.http.impl.client.CloseableHttpClient; import org.apache.http.impl.client.HttpClients; import org.apache.http.util.EntityUtils; import org.jsoup.Jsoup; import org.jsoup.nodes.Document; import org.jsoup.nodes.Element; import org.jsoup.select.Elements; import org.springframework.util.DigestUtils; import org.springframework.util.StringUtils; import javax.annotation.Resource; import java.io.*; import java.net.HttpURLConnection; import java.net.MalformedURLException; import java.net.URL; import java.net.URLConnection; import java.util.ArrayList; import java.util.List; import java.util.regex.Matcher; import java.util.regex.Pattern; /**
* 爬蟲實現
*@program: crawler * @description * @author: wl * @create: 2021-01-12 17:56 **/ @Service public class CrawlerService { /** * @param url 要抓取的網頁地址 * @param encoding 要抓取網頁編碼 * @return */ public String getHtmlResourceByUrl(String url, String encoding) { URL urlObj = null; HttpURLConnection uc = null; InputStreamReader isr = null; BufferedReader reader = null; StringBuffer buffer = new StringBuffer(); // 創建網絡鏈接 try { urlObj = new URL(url); // 打開網絡鏈接 uc =(HttpURLConnection) urlObj.openConnection(); // 模擬瀏覽器請求 uc.setRequestProperty("User-Agent", "Mozilla/4.0 (compatible; MSIE 5.0; Windows NT; DigExt)"); // 創建文件輸入流 isr = new InputStreamReader(uc.getInputStream(), encoding); // 創建緩存導入 將網頁源代碼下載下來 reader = new BufferedReader(isr); // 臨時 String temp = null; while ((temp = reader.readLine()) != null) {// System.out.println(temp+"\n"); buffer.append(temp + "\n"); } System.out.println("爬取結束:"+buffer.toString()); } catch (Exception e) { e.printStackTrace(); } finally { // 關流 if (isr != null) { try { isr.close(); } catch (IOException e) { e.printStackTrace(); } } } return buffer.toString(); } /** * 下載圖片 * * @param listImgSrc */ public void Download(List<PictureInfo> listImgSrc) { int count = 0; try { for (int i = 0; i < listImgSrc.size(); i++) { try { PictureInfo pictureInfo = listImgSrc.get(i); String url=pictureInfo.getSrc(); String imageName = url.substring(url.lastIndexOf("/") + 1, url.length()); URL uri = new URL(url); // 打開鏈接 URLConnection con = uri.openConnection(); //設置請求超時爲 con.setConnectTimeout(5 * 1000); con.setRequestProperty("User-Agent", "Mozilla/4.0 (compatible; MSIE 5.0; Windows NT; DigExt)"); // 輸入流 InputStream is = con.getInputStream(); // 1K的數據緩衝 byte[] bs = new byte[1024]; // 讀取到的數據長度 int len; // 輸出的文件流 String src = url.substring(URL.length()); int index = src.lastIndexOf('/'); String fileName = src.substring(0, index + 1); File sf = new File(SAVE_PATH + fileName); if (!sf.exists()) { sf.mkdirs(); } OutputStream os = new FileOutputStream(sf.getPath() + "\\" + imageName); System.out.println(++count + ".開始下載:" + url); // 開始讀取 while ((len = is.read(bs)) != -1) { os.write(bs, 0, len); } // 完畢,關閉全部連接 os.close(); is.close(); System.out.println(imageName + ":--下載完成"); } catch (IOException e) { System.out.println("下載錯誤"+e); } } } catch (Exception e) { e.printStackTrace(); System.out.println("下載失敗"+e); } } /** * 獲得網頁中圖片的地址-推薦 * 使用jsoup * @param htmlStr html字符串 * @return List<String> */ public List<PictureInfo> getImgStrJsoup(String htmlStr) { List<PictureInfo> pics = new ArrayList<PictureInfo>(); //獲取網頁的document樹 Document imgDoc = Jsoup.parse(htmlStr); //獲取全部的img Elements alts = imgDoc.select("img[src]"); for (Element alt : alts) { PictureInfo p=new PictureInfo(); p.setSrc(alt.attr("src")); p.setAlt(alt.attr("alt")); p.setTitle(alt.attr("title")); pics.add(p); } return pics; } }
主要方法就這些,只要爬取下來的網頁信息包含img標籤,就能扒下其對應的圖片。網絡
這只是一部分啊。。。app
不過提醒各位一句,爬下來本身用用就好了(我作動態桌面壁紙),不要用於商業用途,若是要商業化,能夠去爬那些無版權的網站。