Node爬蟲爬博客園

時間 2021-01-06

原文原文鏈接

博客園右邊有一個「找找看」的索引窗口，我們輸入關鍵詞，可以查到幾萬篇的相關的博客，這裏用Node的爬蟲來抓取給定關鍵詞的查詢的特定內容，實現翻頁功能，抓取文章鏈接，作者，發佈日期等信息。 Node適合高併發IO操作的程序，用來寫爬蟲速度最快了。這裏我們把爬到的數據存儲到數據庫中。前奏： 1.cheerio模塊，一個類似jQuery的選擇器模塊，分析HTML利器。 2.request模塊，讓ht

>>阅读原文<<