使用nodeJS寫一個簡單的小爬蟲

須要安裝的依賴:javascript

  • request

使用request向須要爬取的網站發起一個請求,在回調裏使用body接收數據java

我選取百度圖庫,做爲本次爬取的網站程序員

使用百度搜素二次元萌妹子,而後在地址欄裏將URL複製下來正則表達式

const request = require('request');

const options = {
    method: "GET",
    url: "https://image.baidu.com/search/index?isource=infinity&iname=baidu&tn=baiduimage&word=%E4%BA%8C%E6%AC%A1%E5%85%83%E8%90%8C%E5%A6%B9",
    headers:{
        "User-Agent" : "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.110 Safari/537.36"
    }
}
//先打印一下,看看是否抓取到了數據
request(options,(err,res,body)=>{
    console.log(err);
    console.log(res.statusCode);
    console.log(body);
})
複製代碼

當看到控制檯輸出一大串信息後(網頁源代碼),且沒有報錯,statusCode返回200,說明正確請求到了數據。

接着,咱們須要對數據,進行處理(對返回的數據,進行分析,拿到咱們想要的數據,這裏咱們想要獲得數據是圖片的URL地址)。npm

處理數據的方式:dom

  • 正則表達式

做爲一個程序員,處理字符串,首先想到的固然是正則了異步

使用正則去匹配data-url性能

const request = require('request');

const options = {
    method: "GET",
    url: "https://image.baidu.com/search/index?isource=infinity&iname=baidu&tn=baiduimage&word=%E4%BA%8C%E6%AC%A1%E5%85%83%E8%90%8C%E5%A6%B9",
    headers:{
        "User-Agent" : "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.110 Safari/537.36"
    }
}
//先打印一下,看看是否抓取到了數據
request(options,(err,res,body)=>{
    const reg = /thumbURL":"https?:\/\/.+?&gp=0.jpg/ig;
    const urlArr = body.match(reg);
    const msgArr = [];
    urlArr.forEach(( val,idx ) => {
        const reg = /https?:\/\/.+?&gp=0.jpg/;
        msgArr.push(val.match(reg)[0]);
    })
    console.log(msgArr);
})
複製代碼

匹配成功!!! 咱們試着點擊一下,可否訪問

就很棒,抓到的數據,沒有問題

接着,咱們嘗試着將圖片下載下來網站

//想要下載圖片,就必須請求圖片的地址
//訪問到圖片的靜態資源後,使用管道流保存到文件中
//由於I/O操做是異步的,因此使用Promise將代碼改寫一下
const request = require('request');
const fs = require('fs');//寫入文件,須要導入fs模塊
const options = {
    method: "GET",
    url: "https://image.baidu.com/search/index?isource=infinity&iname=baidu&tn=baiduimage&word=%E4%BA%8C%E6%AC%A1%E5%85%83%E8%90%8C%E5%A6%B9",
    headers:{
        "User-Agent" : "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.110 Safari/537.36"
    }
}

new Promise(( res,rej ) => {
    request(options,( err,response,body ) => {
        const reg = /thumbURL":"https?:\/\/.+?&gp=0.jpg/ig;
        const urlArr = body.match(reg);
        const msgArr = [];
        urlArr.forEach(( val,idx ) => {
            const reg = /https?:\/\/.+?&gp=0.jpg/;
            msgArr.push(val.match(reg)[0]);
        })
        res(msgArr);
    })
}).then( msgArr => {
    msgArr.forEach(( val,idx ) => {
        request(val).pipe(fs.createWriteStream("./img/"+idx+".jpg"));
    })
})

複製代碼

此時打開文件夾,能夠看到圖片已經下載成功!

使用正則,能夠解析使用JS渲染的頁面,若是發起請求後,body接收的數據返回的是一個頁面結構,則能夠使用如下兩個npm包:ui

  • jsdom
  • cheerio

jsdom能夠將數據解析成DOM結構,cheerio則將數據包裝成jQuery

以百度搜索爲例,若是要抓取搜索結果的標題內容和連接

//
const request = require("request")
const {JSDOM} = require("jsdom")
//const cheerio = require("cheerio")

const word = encodeURI("二次元萌妹")
request({
    url : "https://www.baidu.com/s?wd="+word,
    headers:{
        "User-Agent" : "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.110 Safari/537.36"
    }
},(err,response,body)=>{
    if(err)throw err;
    if( response.statusCode >=200 && response.statusCode<300 ){
        //JSDOM處理body
        let {window} = new JSDOM(body);
        let aDOM = window.document.querySelectorAll("h3.t a");
        [...aDOM].forEach(ele => {
            console.log(ele.text,ele.href);
        })

        //cheerio處理body
        /*let $ = cheerio.load(body); $("h3.t a").each((i,ele)=>{ console.log($(ele).attr("href")); console.log($(ele).text()); })*/
    }
});

複製代碼

獲得的結果

能夠看到操做十分簡便,可是若是數據量大,這種方法性能不佳
相關文章
相關標籤/搜索