nodejs爬蟲

時間 2019-11-16

標籤 nodejs 爬蟲欄目網絡爬蟲简体版

原文原文鏈接

所謂爬蟲就是，獲取html文檔，而後從中爬取出須要的數據信息。html

1.如何用node獲取html文檔node

var http = require('http')jquery

var url = 'http://www.ziroom.com/';

http.get(url, function (res) {

var html = '';

res.on('data', function (data) {

html += data;

})

res.on('end', function () {

console.log(html);//這裏已經徹底獲取到了html

});

}).on('error', function () {

console.log('獲取數據出錯!');

});

2.如何操做這個html文檔並進行爬蟲

要使用cheerio這個包

https://www.npmjs.com/package/cheerio

這個玩意能夠經過cheerio.load() 來加載一段html字符串

而後經過jquery操做來獲取想要的東西。

3.最後能夠console.log或者用fs給寫出來。

相關文章

相關標籤/搜索

爬蟲－反爬蟲

每日一句

每一个你不满意的现在，都有一个你没有努力的曾经。

最新文章

本站公眾號

歡迎關注本站公眾號,獲取更多信息

相關文章

>>更多相關文章<<