所謂爬蟲就是,獲取html文檔,而後從中爬取出須要的數據信息。html
1.如何用node獲取html文檔node
var http = require('http')jquery
var url = 'http://www.ziroom.com/';
http.get(url, function (res) {
var html = '';
res.on('data', function (data) {
html += data;
})
res.on('end', function () {
console.log(html);//這裏已經徹底獲取到了html
});
}).on('error', function () {
console.log('獲取數據出錯!');
});
2.如何操做這個html文檔並進行爬蟲
要使用cheerio這個包
https://www.npmjs.com/package/cheerio
這個玩意能夠經過cheerio.load() 來加載一段html字符串
而後經過jquery操做來獲取 想要的東西。
3.最後能夠console.log或者用fs給寫出來。