基於Node.js的爬蟲工具 – Node Crawler

Node Crawler的目標是成爲最好的node.js爬蟲工具,目前已經中止維護。html

 

咱們來抓取光合新知博客tech欄目中的文章信息。
訪問http://dev.guanghe.tv/category/tech/,右鍵查看頁面源代碼,能夠看到文章信息等內容,以下所示:node

 

 

由於每篇文章都是一個<li>標籤,因此咱們從頁面代碼的全部<li>中獲取文章的發佈時間、連接和標題。git

爬蟲代碼:github

 

 

npm install安裝crawler模塊,node app.js運行程序。
你將會得到以下內容(僅展現部份內容):npm

 

相關文章
相關標籤/搜索