最近遇到一個需求,就是要從一個英語句子分析的頁面中,根據你輸入的英語從句,點擊開始分析按鈕,這個頁面就會將分析的結果解析出來,如node
而後咱們就是須要從這個頁面中把這些解析好的數據(包括句子語法結構詳解,句子相關詞彙解釋等)取出來,這時候我就想到以前學過node.js,這時候就來弄下node.js的小小的爬蟲。npm
首先,電腦要先安裝node.js,至於怎麼安裝,請google,或者找相關教程來看。dom
而後就須要瞭解下node,如今我先加載http模塊,而後設置url的值,url就是你要爬的那個網頁的地址啦學習
而後經過http.get得到數據,如今我應該把代碼粘貼上來啦。ui
而後我是保存爲crawler_english.js文件的,而後就在命令行中運行了,敲node crawler_english.js,無拼寫什麼意外的話,就把所有頁面都打印出來啦。google
鐺鐺鐺鐺,獲取數據以後就要開始解析了。url
聽說解析dom結構用cheerio這個模塊比較好,我就npm install cheerio了這個模塊命令行
而後 var cheerio = require('cheerio');將這個模塊加載進來。blog
首先我要獲取的是句子成分分析、句子語法結構詳解、句子相關詞彙解釋、句子語法錯誤檢查和句子相關學習點下的內容,這時候我就要找下他們的id,以後進行解析,解析過程就不說了。教程