nodejs爬蟲

所謂爬蟲就是,獲取html文檔,而後從中爬取出須要的數據信息。html

 

1.如何用node獲取html文檔node

var http = require('http')jquery

var url = 'http://www.ziroom.com/';
 

http.get(url, function (res) {
var html = '';
 
res.on('data', function (data) {
html += data;
})

res.on('end', function () {
   
 console.log(html);//這裏已經徹底獲取到了html
});

}).on('error', function () {
console.log('獲取數據出錯!');
});
 
 
2.如何操做這個html文檔並進行爬蟲
 
要使用cheerio這個包
https://www.npmjs.com/package/cheerio
 
這個玩意能夠經過cheerio.load() 來加載一段html字符串
 
而後經過jquery操做來獲取 想要的東西。
 
 
 
3.最後能夠console.log或者用fs給寫出來。
相關文章
相關標籤/搜索