Node.js meitulu圖片批量下載爬蟲1.06版

//======================================================
// https://www.meitulu.com圖片批量下載Node.js爬蟲1.06
// 1.00 完成圖片爬蟲,手動輸入頁數和目錄
// 1.01 改寫。
// 1.02 手動輸入頁面url,而後自動解析
// 1.03 從命令行得到頁面url,而後自動解析
// 1.04 解決數量節點位置不固定bug和輸入狀態不退出bug
// 1.05 增長自動模式和手動模式
// 1.06 更改成按名字搜索頁批量下載
// 2017年11月9日
//======================================================

// 內置https模塊,用來解析頁面獲得頁數(圖片總數)和目錄(圖片所在網絡目錄)
var https=require("https");

// 內置http模塊,用來經過地址獲得圖片文件
var http=require("http");

// 用於解析gzip網頁(ungzip,https獲得的網頁是用gzip進行壓縮的)
var zlib = require('zlib'); 

// cheerio模塊,提供了相似jQuery的功能,用於從HTML code中查找頁數和目錄
var cheerio = require("cheerio");

// 內置文件處理模塊,用於建立目錄和圖片文件
var fs=require('fs');

// 請求參數JSON。http和https都有使用
var options;

// request請求
var req;

//--------------------------------------
// 程序入口 
//--------------------------------------
function getInput(){
        
    process.stdout.write("\033[35m 請輸入按名稱搜索的頁面URL:\033[039m");    //紫色
    process.stdin.resume();
    process.stdin.setEncoding('utf8');    

    process.stdin.on('data',function(text){
        process.stdin.end();// 退出輸入狀態        
        findPageUrls(text.trim());// trim()是必須的!        
    });    
}

//--------------------------------------
// 在按名稱搜索的頁面找到單頁url
// batchPageUrl sample1:https://www.meitulu.com/t/mikie-hara/
// batchPageUrl sample2:https://www.meitulu.com/search/%E5%8E%9F%E5%B9%B2
// sample2相似的地址可能要嘗試屢次
//--------------------------------------
function findPageUrls(batchPageUrl){
    console.log("開始查找單頁urls");
    
    var hostName="";
    var Path="";
    var arr=batchPageUrl.split("/");
    hostName=arr[2];
    console.log("hostName="+hostName);

    // 以是否以‘/’結尾區分兩種狀況
    if(batchPageUrl.charAt(batchPageUrl.length-1)=='/'){
        // 帶斜槓的是點名字出來的已設定地址
        Path="/"+arr[3]+"/"+arr[4]+"/";
    }else{
        // 不帶斜槓的是按關鍵字搜索出來的
        Path="/"+arr[3]+"/"+arr[4];
    }
    console.log("Path="+Path);

    // 初始化options  
    options={
        hostname:hostName,
            port:443,
            path:Path,// 子路徑
          method:'GET',
           agent:false,
            gzip: true,            
    };
    
    req=https.request(options,function(resp){
        var html = [];

        resp.on("data", function(data) {
            html.push(data);
        })
        resp.on("end", function() {
            var buffer = Buffer.concat(html);

            zlib.gunzip(buffer, function(err, decoded) {
                if(err){
                    console.log("[findPageUrls]不能獲得頁面:"+batchPageUrl+"對應的html文本,錯誤是:"+err);
                    console.log(err);
                }else{
                    //console.log(decoded.toString());// gzip解壓後的html文本
                    var body=decoded.toString();                    
                    var $ = cheerio.load(body);                    

                    // 查找全部class爲boxs的節點下面的ul li a節點
                    $(".boxs ul li a").each(function(index,element){
                        var text=$(element).attr("href");

                        // 有https://www.meitulu.com/item的地址的連接是目標
                        if(text.indexOf('https://www.meitulu.com/item')!=-1){
                            console.log("pageUrl="+text);
                            start(text);
                        }
                    })                      
                }    
            })
        }).on("error", function() {
            console.log("獲取失敗")
        })
    });

    // 超時處理
    req.setTimeout(5000,function(){
        req.abort();
    });

    // 出錯處理
    req.on('error',function(err){
        if(err.code=="ECONNRESET"){
            console.log('[findPageUrls]socket端口鏈接超時。');
            console.log(err);
        }else{
            console.log('[findPageUrls]請求發生錯誤,err.code:'+err.code);
            console.log(err);
        }
    });

    // 請求結束
    req.end();
}


//--------------------------------------
// 開始單頁下載 
//--------------------------------------
function start(pageUrl){
    console.log("開始下載...");

    var hostName="";
    var Path="";
    var arr=pageUrl.split("/");
    hostName=arr[2];
    Path="/"+arr[3]+"/"+arr[4];

    // 初始化options  
    options={
        hostname:hostName,
            port:443,
            path:Path,// 子路徑
          method:'GET',
           agent:false,
            gzip: true,
    };
    
    req=https.request(options,function(resp){
        var html = [];

        resp.on("data", function(data) {
            html.push(data);
        })
        resp.on("end", function() {
            var buffer = Buffer.concat(html);

            zlib.gunzip(buffer, function(err, decoded) {
                var endIndex=-1;
                var folder="";

                if(err){
                    console.log("不能獲得html文本,由於"+err);
                    console.log("請使用 1.05版本里的 1.手動模式 下載 "+pageUrl);
                }else{
                    //console.log(decoded.toString());// gzip解壓後的html文本
                    var body=decoded.toString();
                    var $ = cheerio.load(body);
                    

                    // 查找全部class爲c_l的節點下面的p節點
                    $(".c_l p").each(function(index,element){
                        var text=$(element).text();

                        if(text.indexOf("數量")!=-1 && endIndex==-1){
                            var arr=text.split(" ");
                            endIndex=arr[1];
                        }
                    })   

                    // 查找全部class爲c_l的節點下面的p節點
                    $(".content center img").each(function(index,element){
                        if(index==0){
                            var text=$(element).attr("src");
                            
                            var arr=text.split("/");
                            folder=arr[arr.length-2];                        
                        }
                    }) 
                    
                    console.log("頁數="+endIndex);
                    console.log("目錄="+folder);    

                    fs.mkdir('./'+folder,function(err){
                        if(err){
                            console.log("目錄"+folder+"已經存在");
                        }
                    });                
                    
                }    
                
                // 下載圖片
                for(var i=1;i<=endIndex;i++){
                    downloadPic(folder,i);
                }

            })
        }).on("error", function() {
            console.log("獲取失敗")
        })
    });

    // 超時處理
    req.setTimeout(5000,function(){
        req.abort();
    });

    // 出錯處理
    req.on('error',function(err){
        if(err.code=="ECONNRESET"){
            console.log('[start]socket端口鏈接超時。');
            console.log(err);
        }else{
            console.log('[start]請求發生錯誤,err.code:'+err.code);
            console.log(err);
        }
    });

    // 請求結束
    req.end();
}

//--------------------------------------
// 下載圖片
// folder:圖片所在url的目錄
// pinctureIndex:圖片序號
//--------------------------------------
function downloadPic(folder,pinctureIndex){
    console.log("圖片:"+pinctureIndex+"下載開始");

    // 初始化options
    options={
        hostname:'mtl.ttsqgs.com',// 這裏別加http://,不然會出現ENOTFOUND錯誤
            port:80,
            path:'/images/img/'+folder+'/'+pinctureIndex+'.jpg',// 子路徑
          method:'GET',
    };

    req=http.request(options,function(resp){
        var imgData = "";
        resp.setEncoding("binary"); 

        resp.on('data',function(chunk){
            imgData+=chunk;            
        });

        resp.on('end',function(){
            var fileName="./"+folder+"/"+pinctureIndex+".jpg";
            fs.writeFile(fileName, imgData, "binary", function(err){
                if(err){
                    console.log("文件"+fileName+"下載失敗.");
                }
                console.log("文件"+fileName+"下載成功");
            });    
        });
    });

    // 超時處理
    req.setTimeout(5000,function(){
        req.abort();
    });

    // 出錯處理
    req.on('error',function(err){
        if(err.code=="ECONNRESET"){
            console.log('[downloadPic]socket端口鏈接超時。');
            console.log(err);
        }else{
            console.log('[downloadPic]請求發生錯誤,err.code:'+err.code);
            console.log(err);
        }
    });

    // 請求結束
    req.end();
}

// 調用getInput函數,程序開始
getInput();

2017年11月10日07:02:27html

相關文章
相關標籤/搜索