NodeJS使用PhantomJs抓取網頁

想用 nodejs 抓取一些網頁 , 我第一反應想到的就是使用 http 模塊 , 好比抓取百度首頁:html

var http = require('http');
var req = http.request('http://www.baidu.com/', function (res) {
    res.setEncoding('utf8');
    res.on('data', function (chunk) {
        //響應內容
        console.log(chunk)
    });
});
req.end(function () {
    // console.log('鏈接關閉');
});

可是 , 這僅限於簡單地抓取 html , 有很大的侷限性。
假如你想要的內容不在 html 裏 , 而是 js 動態生成的 , 那 http 模塊就不能知足你的需求了 ;
假如網頁使 gbk 編碼的 , 上述方法也不太好用了。
假如是 https 上述方法也要改一改了。node

我渴望一個更強大 , 但使用起來也不麻煩的工具。web

PhantomJs

PhantomJs 就能夠解決上述問題。npm

PhantomJs 就是一個沒有界面的瀏覽器。json

安裝

使用 cnpm 安裝 PhantomJS 便可:瀏覽器

cnpm install phantomjs --save-dev

這裏我沒有選擇全局安裝 , 由於全局安裝的話 , 別人使用個人源碼的時候 , 不知道還有這麼一個依賴 , 項目就跑不起來了。工具

若是你也選擇局部安裝 , 那麼你須要在 package.json 裏的 scripts 中加入一段 :ui

"phantomjs":"node_modules/.bin/phantomjs"

等下會用到這個的 , 到這裏 , 安裝算完成了。編碼

寫代碼

咱們新建一個文件 , 名字隨意 , 這裏我新建一個 main.js :命令行

var webpage = require('webpage');
var page = webpage.create();
page.open('http://www.baidu.com/', function (status) {
    var data;
    if (status === 'fail') {
        console.log('open page fail!');
    } else {
        console.log(page.content);//打印出HTML內容
    }
    page.close();//關閉網頁
    phantom.exit();//退出phantomjs命令行
});

這裏有個 webpage 模塊 , 咱們剛纔明明沒有這個模塊 , 爲何能引用這個模塊 ???

固然不能引用 , 假如咱們使用 node main.js 來跑這段代碼 , 是跑不起來的 , 應該這樣運行這段代碼 :

npm run phantomjs main.js

這裏的 npm run phantomjs 對應的就是前面咱們在 package.json 里加入的那段命令 , 很方便吧 , 幾乎和 http 模塊同樣方便。

page.content 就是 html 代碼了 , 這個 page 對象還有不少的屬性 , 功能更強大。

到這裏 , 你就已經算入門了 , 想知道更多能夠去 phantomjs 官網看看文檔了。

相關文章
相關標籤/搜索