Node爬蟲 爬博客園

博客園右邊有一個「找找看」的索引窗口,我們輸入關鍵詞,可以查到幾萬篇的相關的博客,這裏用Node的爬蟲來抓取給定關鍵詞的查詢的特定內容,實現翻頁功能,抓取文章鏈接,作者,發佈日期等信息。 Node適合高併發IO操作的程序,用來寫爬蟲速度最快了。這裏我們把爬到的數據存儲到數據庫中。 前奏: 1.cheerio模塊 ,一個類似jQuery的選擇器模塊,分析HTML利器。 2.request模塊,讓ht
相關文章
相關標籤/搜索