//====================================================== // https://www.meitulu.com圖片批量下載Node.js爬蟲1.06 // 1.00 完成圖片爬蟲,手動輸入頁數和目錄 // 1.01 改寫。 // 1.02 手動輸入頁面url,而後自動解析 // 1.03 從命令行得到頁面url,而後自動解析 // 1.04 解決數量節點位置不固定bug和輸入狀態不退出bug // 1.05 增長自動模式和手動模式 // 1.06 更改成按名字搜索頁批量下載 // 2017年11月9日 //====================================================== // 內置https模塊,用來解析頁面獲得頁數(圖片總數)和目錄(圖片所在網絡目錄) var https=require("https"); // 內置http模塊,用來經過地址獲得圖片文件 var http=require("http"); // 用於解析gzip網頁(ungzip,https獲得的網頁是用gzip進行壓縮的) var zlib = require('zlib'); // cheerio模塊,提供了相似jQuery的功能,用於從HTML code中查找頁數和目錄 var cheerio = require("cheerio"); // 內置文件處理模塊,用於建立目錄和圖片文件 var fs=require('fs'); // 請求參數JSON。http和https都有使用 var options; // request請求 var req; //-------------------------------------- // 程序入口 //-------------------------------------- function getInput(){ process.stdout.write("\033[35m 請輸入按名稱搜索的頁面URL:\033[039m"); //紫色 process.stdin.resume(); process.stdin.setEncoding('utf8'); process.stdin.on('data',function(text){ process.stdin.end();// 退出輸入狀態 findPageUrls(text.trim());// trim()是必須的! }); } //-------------------------------------- // 在按名稱搜索的頁面找到單頁url // batchPageUrl sample1:https://www.meitulu.com/t/mikie-hara/ // batchPageUrl sample2:https://www.meitulu.com/search/%E5%8E%9F%E5%B9%B2 // sample2相似的地址可能要嘗試屢次 //-------------------------------------- function findPageUrls(batchPageUrl){ console.log("開始查找單頁urls"); var hostName=""; var Path=""; var arr=batchPageUrl.split("/"); hostName=arr[2]; console.log("hostName="+hostName); // 以是否以‘/’結尾區分兩種狀況 if(batchPageUrl.charAt(batchPageUrl.length-1)=='/'){ // 帶斜槓的是點名字出來的已設定地址 Path="/"+arr[3]+"/"+arr[4]+"/"; }else{ // 不帶斜槓的是按關鍵字搜索出來的 Path="/"+arr[3]+"/"+arr[4]; } console.log("Path="+Path); // 初始化options options={ hostname:hostName, port:443, path:Path,// 子路徑 method:'GET', agent:false, gzip: true, }; req=https.request(options,function(resp){ var html = []; resp.on("data", function(data) { html.push(data); }) resp.on("end", function() { var buffer = Buffer.concat(html); zlib.gunzip(buffer, function(err, decoded) { if(err){ console.log("[findPageUrls]不能獲得頁面:"+batchPageUrl+"對應的html文本,錯誤是:"+err); console.log(err); }else{ //console.log(decoded.toString());// gzip解壓後的html文本 var body=decoded.toString(); var $ = cheerio.load(body); // 查找全部class爲boxs的節點下面的ul li a節點 $(".boxs ul li a").each(function(index,element){ var text=$(element).attr("href"); // 有https://www.meitulu.com/item的地址的連接是目標 if(text.indexOf('https://www.meitulu.com/item')!=-1){ console.log("pageUrl="+text); start(text); } }) } }) }).on("error", function() { console.log("獲取失敗") }) }); // 超時處理 req.setTimeout(5000,function(){ req.abort(); }); // 出錯處理 req.on('error',function(err){ if(err.code=="ECONNRESET"){ console.log('[findPageUrls]socket端口鏈接超時。'); console.log(err); }else{ console.log('[findPageUrls]請求發生錯誤,err.code:'+err.code); console.log(err); } }); // 請求結束 req.end(); } //-------------------------------------- // 開始單頁下載 //-------------------------------------- function start(pageUrl){ console.log("開始下載..."); var hostName=""; var Path=""; var arr=pageUrl.split("/"); hostName=arr[2]; Path="/"+arr[3]+"/"+arr[4]; // 初始化options options={ hostname:hostName, port:443, path:Path,// 子路徑 method:'GET', agent:false, gzip: true, }; req=https.request(options,function(resp){ var html = []; resp.on("data", function(data) { html.push(data); }) resp.on("end", function() { var buffer = Buffer.concat(html); zlib.gunzip(buffer, function(err, decoded) { var endIndex=-1; var folder=""; if(err){ console.log("不能獲得html文本,由於"+err); console.log("請使用 1.05版本里的 1.手動模式 下載 "+pageUrl); }else{ //console.log(decoded.toString());// gzip解壓後的html文本 var body=decoded.toString(); var $ = cheerio.load(body); // 查找全部class爲c_l的節點下面的p節點 $(".c_l p").each(function(index,element){ var text=$(element).text(); if(text.indexOf("數量")!=-1 && endIndex==-1){ var arr=text.split(" "); endIndex=arr[1]; } }) // 查找全部class爲c_l的節點下面的p節點 $(".content center img").each(function(index,element){ if(index==0){ var text=$(element).attr("src"); var arr=text.split("/"); folder=arr[arr.length-2]; } }) console.log("頁數="+endIndex); console.log("目錄="+folder); fs.mkdir('./'+folder,function(err){ if(err){ console.log("目錄"+folder+"已經存在"); } }); } // 下載圖片 for(var i=1;i<=endIndex;i++){ downloadPic(folder,i); } }) }).on("error", function() { console.log("獲取失敗") }) }); // 超時處理 req.setTimeout(5000,function(){ req.abort(); }); // 出錯處理 req.on('error',function(err){ if(err.code=="ECONNRESET"){ console.log('[start]socket端口鏈接超時。'); console.log(err); }else{ console.log('[start]請求發生錯誤,err.code:'+err.code); console.log(err); } }); // 請求結束 req.end(); } //-------------------------------------- // 下載圖片 // folder:圖片所在url的目錄 // pinctureIndex:圖片序號 //-------------------------------------- function downloadPic(folder,pinctureIndex){ console.log("圖片:"+pinctureIndex+"下載開始"); // 初始化options options={ hostname:'mtl.ttsqgs.com',// 這裏別加http://,不然會出現ENOTFOUND錯誤 port:80, path:'/images/img/'+folder+'/'+pinctureIndex+'.jpg',// 子路徑 method:'GET', }; req=http.request(options,function(resp){ var imgData = ""; resp.setEncoding("binary"); resp.on('data',function(chunk){ imgData+=chunk; }); resp.on('end',function(){ var fileName="./"+folder+"/"+pinctureIndex+".jpg"; fs.writeFile(fileName, imgData, "binary", function(err){ if(err){ console.log("文件"+fileName+"下載失敗."); } console.log("文件"+fileName+"下載成功"); }); }); }); // 超時處理 req.setTimeout(5000,function(){ req.abort(); }); // 出錯處理 req.on('error',function(err){ if(err.code=="ECONNRESET"){ console.log('[downloadPic]socket端口鏈接超時。'); console.log(err); }else{ console.log('[downloadPic]請求發生錯誤,err.code:'+err.code); console.log(err); } }); // 請求結束 req.end(); } // 調用getInput函數,程序開始 getInput();
2017年11月10日07:02:27html