爬蟲方面的進展

通過幾個月的摸索、實踐、調試,對Scrapy的使用掌握的比較熟練了。而且結合Selenium的使用,目前已經完成了噹噹圖書數據的抓取,大概260多萬條吧,而且每隔幾天會自動抓取新增圖書數據。調試

這幾個月不管對於Scrapy仍是Selenium的使用,都有了很多的收穫。數據

美中不足的是噹噹的數據比較雜亂,而且圖書標題等信息也不夠規範,接下來打算抓取豆瓣和京東圖書的數據,爭取將這份數據給完善起來。圖書

相關文章
相關標籤/搜索