python爬蟲實戰(七)--------伯樂在線文章(模版)

相關代碼已經修改調試成功----2017-4-21html

1、說明

1.目標網址伯樂在線mysql

2.實現:如圖字段的爬取git

3.數據:存放在百度網盤,有須要的能夠拿取 連接:http://pan.baidu.com/s/1nvdnzpZ 密碼:2j9lgithub

2、運行

運行我就很少說了,直接運行main.py,相關的參數變一下就行了。有點基礎的應該都會。sql

3、學習筆記

本項目爬取伯樂在線的所有文章,主要是記錄幾個經常使用的模版能夠反覆使用數據庫

  1. loader機制和item處理
  2. 異步存入數據庫模版
  3. 爬取圖片存放目錄記錄
  4. main.py的模版
  5. md5加密函數
  6. scrapy框架中自動下載圖片

4、問題----歡迎留言提出問題

1.暫時沒有很大的問題解決不了,後期若是遇到再貼出來框架

5、調試中遇到的問題記錄

1.TypeError:'Failure' object is not subscriptable異步

如圖:
scrapy

解決方法: 添加一個try,except,由於有些圖片加載不出來ide

2.pymysql.err.InterfaceError: (0, '')

那是由於scrapy異步的存儲的緣由,太快。

解決方法:只要放慢爬取速度就能解決,setting.py中設置 DOWNLOAD_DELAY = 2


想要看代碼請移步個人github:https://github.com/pujinxiao/jobbole_spider

若是本項目對你有用請給我一顆star,萬分感謝。

做者:今孝

出處:http://www.cnblogs.com/jinxiao-pu/p/6744374.html

本文版權歸做者和博客園共有,歡迎轉載,但未經做者贊成必須保留此段聲明,且在文章頁面明顯位置給出原文鏈接。

相關文章
相關標籤/搜索