爬取李開復博客並導入mongodb數據庫

時間 2021-04-21

原文原文鏈接

1.實驗目的 l 掌握使用Scrapy等爬蟲工具編寫爬蟲程序的基本思路； l 掌握抓取列表+詳情的靜態組合頁面的方法 2.實驗要求抓取目標。可以選擇以下網站作爲抓取目標，也可以自行尋找自己感興趣的抓取目標：爬取網頁：「李開復的博客」：http://blog.sina.com.cn/kaifulee 任務要求。 1）分析頁面結構，確定待抓取的數據項，至少應抓取文章標題、發表時間、正文內容、文章U

>>阅读原文<<