python爬蟲實戰（七）--------伯樂在線文章（模版）

時間 2019-11-22

標籤 python 爬蟲實戰伯樂在線文章模版欄目 Python 简体版

原文原文鏈接

相關代碼已經修改調試成功----2017-4-21html

1、說明

1.目標網址：伯樂在線mysql

2.實現：如圖字段的爬取git

3.數據：存放在百度網盤，有須要的能夠拿取連接：http://pan.baidu.com/s/1nvdnzpZ 密碼：2j9lgithub

運行我就很少說了，直接運行main.py，相關的參數變一下就行了。有點基礎的應該都會。sql

本項目爬取伯樂在線的所有文章，主要是記錄幾個經常使用的模版能夠反覆使用數據庫

loader機制和item處理

異步存入數據庫模版

爬取圖片存放目錄記錄

main.py的模版

md5加密函數

scrapy框架中自動下載圖片

1.暫時沒有很大的問題解決不了，後期若是遇到再貼出來框架

1.TypeError：'Failure' object is not subscriptable異步

如圖：
scrapy

解決方法：添加一個try，except，由於有些圖片加載不出來ide

2.pymysql.err.InterfaceError: (0, '')

那是由於scrapy異步的存儲的緣由，太快。

解決方法：只要放慢爬取速度就能解決，setting.py中設置 DOWNLOAD_DELAY = 2

若是本項目對你有用請給我一顆star，萬分感謝。

做者：今孝

本文版權歸做者和博客園共有，歡迎轉載，但未經做者贊成必須保留此段聲明，且在文章頁面明顯位置給出原文鏈接。

相關標籤/搜索