Node.js爬蟲--網頁請求模塊

注:如您下載最新的nodegrass版本,因爲部分方法已經更新,本文的例子已經再也不適應,詳細請查看開源地址中的例子。
1、爲何我要寫這樣一個模塊?html

源於筆者想使用Node.js寫一個爬蟲,雖然Node.js官方API提供的請求遠程資源的方法已經很是簡便,具體參考node

http://nodejs.org/api/http.html 其中對於Http的請求提供了,http.get(options, callback)和http.request(options, callback)兩個方法,git

看方法便知,get方法用於get方式的請求,而request方法提供更多的參數,例如其它請求方式,請求主機的端口等等。對於Https的請求於Http相似。一個最簡單的例子:github

 

 1   var https = require('https');  
  2   
  3 https.get('https://encrypted.google.com/',   function(res) {  
  4   console.log("statusCode: ", res.statusCode);  
  5   console.log("headers: ", res.headers);  
  6   
  7   res.on('data',   function(d) {  
  8     process.stdout.write(d);  
  9   });  
 10   
 11 }).on('error',   function(e) {  
 12   console.error(e);  
 13 });編程

對於以上代碼,咱們無非就是想請求遠程主機,獲得響應信息,例如響應狀態,響應頭,響應主體內容。其中get方法的第二個參數是一個回調函數,咱們異步的獲取響應信息,而後,在該回調函數中,res對象又監聽data,on方法中第二個參數又是一個回調,而你獲得d(你請求到的響應信息)後,極可能在對它進行操做的時候再次引入回調,一層層下去,最後就暈了。。。對於異步方式的編程,對於一些習慣同步方式寫代碼的同窗是很是糾結的,固然國內外已經對此提供了一些很是優秀的同步類庫,例如老趙的Wind.js......好像有點扯遠了。其實,咱們調用get最終要獲得的無非就是響應信息,而不關心res.on這樣的監聽過程,由於太懶惰。不想每次都res.on('data',func),因而誕生了今天我要介紹的nodegrass。api

 

2、nodegrass請求資源,像Jquery的$.get(url,func)服務器

一個最簡單的例子:app

 

1   var nodegrass = require('nodegrass');  
 2 nodegrass.get("http://www.baidu.com",  function(data,status,headers){  
 3     console.log(status);  
 4     console.log(headers);  
 5     console.log(data);  
 6 },'gbk').on('error',   function(e) {  
 7     console.log("Got error: " + e.message);  
 8 });異步

咋一看,和官方原來的get沒啥區別,確實差很少=。=!只不過少了一層res.on('data',func)的事件監聽回調而已。無論你信不信,反正我看上去感受舒服多了,第二個參數一樣是一個回調函數,其中的參數data是響應主體內容,status是響應狀態,headers是響應頭。獲得響應內容,咱們就能夠對獲得的資源提取任何咱們感興趣的信息啦。固然這個例子中,只是簡單的打印的控制檯而已。第三個參數是字符編碼,目前Node.js不支持gbk,這裏nodegrass內部引用了iconv-lite進行了處理,因此,若是你請求的網頁編碼是gbk的,例如百度。只需加上這個參數就好了。函數

 

那麼對於https的請求呢?若是是官方api,你得引入https模塊,可是請求的get方法等和http相似,因而nodegrass順便把他們整合在一塊了。看例子:

 

1   var nodegrass = require('nodegrass');  
 2 nodegrass.get("https://github.com",  function(data,status,headers){  
 3     console.log(status);  
 4     console.log(headers);  
 5     console.log(data);  
 6 },'utf8').on('error',   function(e) {  
 7     console.log("Got error: " + e.message);  
 8 });

 

nodegrass會根據url自動識別是http仍是https,固然你的url必須得有,不能只寫www.baidu.com/而須要http://www.baidu.com/

 

對於post的請求,nodegrass提供了post方法,看例子:

 

 

var ng=require('nodegrass');  
ng.post("https://api.weibo.com/oauth2/access_token",  function(data,status,headers){  
      var accessToken = JSON.parse(data);  
      var err =   null;  
      if(accessToken.error){  
         err = accessToken;  
    }  
    callback(err,accessToken);  
    },headers,options,'utf8');

 

以上是新浪微博Auth2.0請求accessToken的一部分,其中使用nodegrass的post請求access_token的api。

post方法相比get方法多提供了headers請求頭參數,options--post的數據,它們都是對象字面量的類型:

 

 1   var headers = {  
  2         'Content-Type': 'application/x-www-form-urlencoded',  
  3         'Content-Length':data.length  
  4     };  
  5   
  6   var options = {  
  7              client_id : 'id',  
  8          client_secret : 'cs',  
  9          grant_type : 'authorization_code',  
 10          redirect_uri : 'your callback url',  
 11          code: acode  
 12     };

 

3、利用nodegrass作代理服務器?……**

看例子:

 

var ng = require('nodegrass'),  
     http=require('http'),  
     url=require('url');  
 
     http.createServer(  function(req,res){  
          var pathname = url.parse(req.url).pathname;  
          
          if(pathname === '/'){  
            ng.get('http://www.cnblogs.com/',  function(data){  
                res.writeHeader(200,{'Content-Type':'text/html;charset=utf-8'});  
                res.write(data+"\n");  
                res.end();  
                },'utf8');  
            }  
     }).listen(8088);  
     console.log('server listening 8088...');

 

 就這麼簡單,固然代理服務器還有複雜的多,這個不算是,但至少你訪問本地8088端口,看到的是否是博客園的頁面呢?

nodegrass的開源地址:https://github.com/scottkiss/nodegrass

相關文章
相關標籤/搜索