相關代碼已經修改調試成功----2017-4-21html
1.目標網址:伯樂在線mysql
2.實現:如圖字段的爬取git
3.數據:存放在百度網盤,有須要的能夠拿取 連接:http://pan.baidu.com/s/1nvdnzpZ 密碼:2j9lgithub
運行我就很少說了,直接運行main.py,相關的參數變一下就行了。有點基礎的應該都會。sql
本項目爬取伯樂在線的所有文章,主要是記錄幾個經常使用的模版能夠反覆使用數據庫
- loader機制和item處理
- 異步存入數據庫模版
- 爬取圖片存放目錄記錄
- main.py的模版
- md5加密函數
- scrapy框架中自動下載圖片
1.暫時沒有很大的問題解決不了,後期若是遇到再貼出來框架
1.TypeError:'Failure' object is not subscriptable異步
如圖:
scrapy
解決方法: 添加一個try,except,由於有些圖片加載不出來ide
2.pymysql.err.InterfaceError: (0, '')
那是由於scrapy異步的存儲的緣由,太快。
解決方法:只要放慢爬取速度就能解決,setting.py中設置 DOWNLOAD_DELAY = 2
想要看代碼請移步個人github:https://github.com/pujinxiao/jobbole_spider
若是本項目對你有用請給我一顆star,萬分感謝。
做者:今孝
出處:http://www.cnblogs.com/jinxiao-pu/p/6744374.html
本文版權歸做者和博客園共有,歡迎轉載,但未經做者贊成必須保留此段聲明,且在文章頁面明顯位置給出原文鏈接。