爬取李開復博客並導入mongodb數據庫

1.實驗目的 l 掌握使用Scrapy等爬蟲工具編寫爬蟲程序的基本思路; l 掌握抓取列表+詳情的靜態組合頁面的方法 2.實驗要求 抓取目標。可以選擇以下網站作爲抓取目標,也可以自行尋找自己感興趣的抓取目標: 爬取網頁:「李開復的博客」:http://blog.sina.com.cn/kaifulee 任務要求。 1)分析頁面結構,確定待抓取的數據項,至少應抓取文章標題、發表時間、正文內容、文章U
相關文章
相關標籤/搜索