python3 使用re、requests、pymongo三個模塊,爬取豆瓣讀書小說內容的全部信息,並將內容保存到CSV或者mongodb中文件中

python中的爬蟲中的requests和re模塊,是咱們很常見的兩個模塊,今天用這兩個模塊,爬取豆瓣讀書一個頁面上的全部書名以及做者名 ,因爲多頁爬取和單頁的原理類似,這裏不作多解釋。 豆瓣讀書爲靜態頁面,分析較爲容易,只需找到頁面url變化規律便可。html #!/usr/bin/env python # -*- coding: utf-8 -*- # author:albert time
相關文章
相關標籤/搜索