NodeJS基礎-9 HTTP小爬蟲

1、代碼

//網頁爬蟲
var http = require('http');
var url = 'http://www.imooc.com/learn/348';

http.get(url,function(res){
	var html =''
	
	res.on('data',function(data){ //當response 有data事件觸發,有一個回調函數
		html += data;
	})
	
	res.on('end',function(){ //最後觸發一個end事件
		console.log(html);
	})
}).on('error' ,function(){
	console.log('獲取課程數據出錯!')
}); //超時或異常

獲取到url頁面內全部內javascript

二、分析源碼,過濾出章節信息

//網頁爬蟲
var http = require('http');
var url = 'http://www.imooc.com/learn/348';

http.get(url,function(res){
	var html =''
	
	res.on('data',function(data){ //當response 有data事件觸發,有一個回調函數
		html += data;
	})
	
	res.on('end',function(){ //最後觸發一個end事件
		//將html做爲參數穿給信息過濾函數
		
		filterChapters(html);// 過濾出章節信息
	})
}).on('error' ,function(){
	console.log('獲取課程數據出錯!')
}); //超時或異常


//在服務器端解析html代碼

function filterChapters(){
	
}

爲了在服務器端解析html代碼須要安裝模塊cheerio,像jquery同樣能夠操做裝載後的HTMLhtml

3.安裝cheerio

直接安裝模塊發現出現錯誤java

解決方式:node

切換到安裝nodejs文件下的nodejs\node_modules\npm  後執行npm install cheeriojquery

而後能夠在nodeJS中直接requirenpm

相關文章
相關標籤/搜索