最近打算買一輛電瓶車來上下班,但又不知道哪一個好,網上是各說紛紜啊,因而就想着,乾脆用node.js本身寫一個小爬蟲,來爬一下中關村在線裏面電瓶車的信息吧。node
(之後完整代碼請前往 www.yubowen2003.com 暫時還在建設中,歡迎你們提issue😂 。)es6
該demo採用node.js做爲爬蟲,爲方便,有些地方使用es6語法,若有不懂,歡迎諮詢😊數組
本文涉及到 cheerio(相似jQuery),fetch,async/await,Promise,Set等知識,若是不懂,可能看起來稍微有一點懵promise
var cheerio = require('cheerio');
var fetch = require('node-fetch');
// cheerio 是一個相似瀏覽器端的jQuery,用來解析HTML的
// fetch 用來發送請求
複製代碼
// 初始url
var url = "http://detail.zol.com.cn/convenienttravel/hangzhou/#list_merchant_loc"
// 因爲每一個a標籤下是相對路徑,故須要一個根地址來拼接,以下
var urlRoot = "http://detail.zol.com.cn"
// 存放全部url,之因此用set,是爲了防止有相同的而重複爬去
var urls = new Set()
// 存儲全部數據
var data = []
複製代碼
至此,咱們的準備部分結束了😅,接下來,開始表演了瀏覽器
每行4款,每頁是48款,一共16頁bash
思路:app
首先咱們定義一個函數以下async
// 這是獲得每一個頁面的48個連接,並開始發送請求
function ad(arg){
// 參數 arg 先無論
// 本地化一下須要爬取的連接
let url2 = arg || url;
// 請求第一頁該網頁,拿到數據以後,複製給 app
var app = await fetch(url2).then(res=>res.text())
// 而後僞裝用jQuery解析了
var $ = cheerio.load(app)
// 獲取當前頁全部電瓶車的a標籤
var ele = $("#J_PicMode a.pic")
// 存放已經爬取過的url,防止重複爬取
var old_urls = []
var urlapp = []
//拿到全部a標籤地址以後,存在數組裏面,等會兒要開始爬的
for (let i = 0; i < ele.length; i++) {
old_urls.push(fetch(urlRoot+$(ele[i]).attr('href')).then(res=>res.text()))
}
// 用把URL一塊丟給promise處理
urlapp = await Promise.all(old_urls)
// 處理完成以後,循環加入jQuery😂
for (let i = 0; i < urlapp.length; i++) {
let $2 = cheerio.load(urlapp[i],{decodeEntities: false})
data.push({
name:$2(".product-model__name").text(),
price:$2(".price-type").text()
})
}
// 至此,一頁的數據就爬完了
// console.log(data);
// 而後開始爬取下一頁
var nextURL = $(".next").attr('href')
// 判斷當前頁是否是最後一頁
if (nextURL){
let next = await fetch(urlRoot+nextURL).then(res=>res.text())
// 獲取下一頁的標籤,拿到地址,走你
ad(urlRoot+nextURL)
}
return data
}
ad()
複製代碼
完整代碼以下函數
var cheerio = require('cheerio');
var fetch = require('node-fetch');
var url = "http://detail.zol.com.cn/convenienttravel/hangzhou/#list_merchant_loc"
var urlRoot = "http://detail.zol.com.cn"
// var url = "http://localhost:3222/app1"
var urls = new Set()
var data = []
async function ad(arg){
let url2 = arg || url;
var app = await fetch(url2).then(res=>res.text())
var $ = cheerio.load(app)
var ele = $("#J_PicMode a.pic")
var old_urls = []
var urlapp = []
for (let i = 0; i < ele.length; i++) {
old_urls.push(fetch(urlRoot+$(ele[i]).attr('href')).then(res=>res.text()))
}
urlapp = await Promise.all(old_urls)
for (let i = 0; i < urlapp.length; i++) {
let $2 = cheerio.load(urlapp[i],{decodeEntities: false})
data.push({
name:$2(".product-model__name").text(),
price:$2(".price-type").text()
})
}
var nextURL = $(".next").attr('href')
if (nextURL){
let next = await fetch(urlRoot+nextURL).then(res=>res.text())
ad(urlRoot+nextURL)
}
return data
}
ad()
複製代碼