java爬蟲-簡單爬取網頁圖片

時間 2019-12-01

標籤 java 爬蟲簡單網頁圖片欄目 Java 简体版

原文原文鏈接

　　剛剛接觸到「爬蟲」這個詞的時候是在大一，那時候什麼都不明白，但知道了百度、谷歌他們的搜索引擎就是個爬蟲。html

如今大二。再次燃起對爬蟲的熱愛，查閱資料，知道經常使用java、python語言編程，此次我選擇了java。在網上查找的java

代碼在本地跑大部分都不能使用，查找相關的資料教程也沒有適合的。實在頭疼、、、python

　　如今本身寫了一個簡單爬取網頁圖片的代碼，先分析一下本身寫的代碼吧正則表達式

            //得到html文本內容
            String HTML = cm.getHtml(URL);
            //獲取圖片標籤
            List<String> imgUrl = cm.getImageUrl(HTML);
            //獲取圖片src地址
            List<String> imgSrc = cm.getImageSrc(imgUrl);
            //下載圖片
            cm.Download(imgSrc);

　　簡單分爲四個功能方法（函數），首先是要獲取html文本編程

 //獲取HTML內容
    private String getHtml(String url)throws Exception{
        URL url1=new URL(url);//使用java.net.URL
        URLConnection connection=url1.openConnection();//打開連接
        InputStream in=connection.getInputStream();//獲取輸入流
        InputStreamReader isr=new InputStreamReader(in);//流的包裝
        BufferedReader br=new BufferedReader(isr);

        String line;
        StringBuffer sb=new StringBuffer();
        while((line=br.readLine())!=null){//整行讀取
            sb.append(line,0,line.length());//添加到StringBuffer中
            sb.append('\n');//添加換行符
        }
        //關閉各類流，先聲明的後關閉
        br.close();
        isr.close();
        in.close();
        return sb.toString();
    }

而後在獲取的html文本中尋找圖片，根據html標記語言不難發現圖片一般帶有<img>，因此app

寫一個關於img的正則表達式函數

    // 獲取img標籤正則
    private static final String IMGURL_REG = "<img.*src=(.*?)[^>]*?>";

接着是獲取img標籤信息，大部分涉及的是集合接口和正則表達式的知識oop

//獲取ImageUrl地址
    private List<String> getImageUrl(String html){
        Matcher matcher=Pattern.compile(IMGURL_REG).matcher(html);
        List<String>listimgurl=new ArrayList<String>();
        while (matcher.find()){
            listimgurl.add(matcher.group());
        }
        return listimgurl;
    }

而後獲取img標籤信息中找取圖片的地址信息，須要構造圖片地址的正則表達式學習

// 獲取src路徑的正則
    private static final String IMGSRC_REG = "[a-zA-z]+://[^\\s]*";

接着是獲取圖片地址的信息，大部分涉及的也是集合接口和正則表達式的知識搜索引擎

//獲取ImageSrc地址
    private List<String> getImageSrc(List<String> listimageurl){
        List<String> listImageSrc=new ArrayList<String>();
        for (String image:listimageurl){
            Matcher matcher=Pattern.compile(IMGSRC_REG).matcher(image);
            while (matcher.find()){
                listImageSrc.add(matcher.group().substring(0, matcher.group().length()-1));
            }
        }
        return listImageSrc;
    }

最後經過圖片地址信息下載圖片

//下載圖片
    private void Download(List<String> listImgSrc) {
        try {
            //開始時間
            Date begindate = new Date();
            for (String url : listImgSrc) {
                //開始時間
                Date begindate2 = new Date();
                String imageName = url.substring(url.lastIndexOf("/") + 1, url.length());
                URL uri = new URL(url);
                InputStream in = uri.openStream();
                FileOutputStream fo = new FileOutputStream(new File("src/res/"+imageName));//文件輸出流
                byte[] buf = new byte[1024];
                int length = 0;
                System.out.println("開始下載:" + url);
                while ((length = in.read(buf, 0, buf.length)) != -1) {
                    fo.write(buf, 0, length);
                }
                //關閉流
                in.close();
                fo.close();
                System.out.println(imageName + "下載完成");
                //結束時間
                Date overdate2 = new Date();
                double time = overdate2.getTime() - begindate2.getTime();
                System.out.println("耗時：" + time / 1000 + "s");
            }
            Date overdate = new Date();
            double time = overdate.getTime() - begindate.getTime();
            System.out.println("總耗時：" + time / 1000 + "s");
        } catch (Exception e) {
            System.out.println("下載失敗");
        }
    }

展現一下運行結果：

上一下所有代碼：

import java.io.*;
import java.net.URL;
import java.net.URLConnection;
import java.util.*;
import java.util.regex.Matcher;
import java.util.regex.Pattern;

public class Main {

    // 地址
    private static final String URL = "http://www.tooopen.com/view/1439719.html";
    // 獲取img標籤正則
    private static final String IMGURL_REG = "<img.*src=(.*?)[^>]*?>";
    // 獲取src路徑的正則
    private static final String IMGSRC_REG = "[a-zA-z]+://[^\\s]*";


    public static void main(String[] args) {
        try {
            Main cm=new Main();
            //得到html文本內容
            String HTML = cm.getHtml(URL);
            //獲取圖片標籤
            List<String> imgUrl = cm.getImageUrl(HTML);
            //獲取圖片src地址
            List<String> imgSrc = cm.getImageSrc(imgUrl);
            //下載圖片
            cm.Download(imgSrc);

        }catch (Exception e){
            System.out.println("發生錯誤");
        }

    }

   //獲取HTML內容
    private String getHtml(String url)throws Exception{
        URL url1=new URL(url);
        URLConnection connection=url1.openConnection();
        InputStream in=connection.getInputStream();
        InputStreamReader isr=new InputStreamReader(in);
        BufferedReader br=new BufferedReader(isr);

        String line;
        StringBuffer sb=new StringBuffer();
        while((line=br.readLine())!=null){
            sb.append(line,0,line.length());
            sb.append('\n');
        }
        br.close();
        isr.close();
        in.close();
        return sb.toString();
    }

    //獲取ImageUrl地址
    private List<String> getImageUrl(String html){
        Matcher matcher=Pattern.compile(IMGURL_REG).matcher(html);
        List<String>listimgurl=new ArrayList<String>();
        while (matcher.find()){
            listimgurl.add(matcher.group());
        }
        return listimgurl;
    }

    //獲取ImageSrc地址
    private List<String> getImageSrc(List<String> listimageurl){
        List<String> listImageSrc=new ArrayList<String>();
        for (String image:listimageurl){
            Matcher matcher=Pattern.compile(IMGSRC_REG).matcher(image);
            while (matcher.find()){
                listImageSrc.add(matcher.group().substring(0, matcher.group().length()-1));
            }
        }
        return listImageSrc;
    }

    //下載圖片
    private void Download(List<String> listImgSrc) {
        try {
            //開始時間
            Date begindate = new Date();
            for (String url : listImgSrc) {
                //開始時間
                Date begindate2 = new Date();
                String imageName = url.substring(url.lastIndexOf("/") + 1, url.length());
                URL uri = new URL(url);
                InputStream in = uri.openStream();
                FileOutputStream fo = new FileOutputStream(new File("src/res/"+imageName));
                byte[] buf = new byte[1024];
                int length = 0;
                System.out.println("開始下載:" + url);
                while ((length = in.read(buf, 0, buf.length)) != -1) {
                    fo.write(buf, 0, length);
                }
                in.close();
                fo.close();
                System.out.println(imageName + "下載完成");
                //結束時間
                Date overdate2 = new Date();
                double time = overdate2.getTime() - begindate2.getTime();
                System.out.println("耗時：" + time / 1000 + "s");
            }
            Date overdate = new Date();
            double time = overdate.getTime() - begindate.getTime();
            System.out.println("總耗時：" + time / 1000 + "s");
        } catch (Exception e) {
            System.out.println("下載失敗");
        }
    }
}