糖寶Python 2019-03-31 18:15git
scrapy.pnggithub
本文主要內容針對Scrapy有初步瞭解的同窗。結合做者的實際項目中遇到的一些問題,匯成本文。shell
以後會寫一些具體的爬蟲demo, 放到 https://github.com/hanguangchao/scrapy_awesome框架
鑑於做者接觸爬蟲不久,水平有限,文章不免出現紕漏,還請各位達人留言指導。scrapy
在學習中有迷茫不知如何學習的朋友小編推薦一個學Python的學習q u n 227 -435- 450能夠來了解一塊兒進步一塊兒學習!免費分享視頻資料分佈式
內容提要ide
Scrapy問題記錄工具
Scrapy問題示例代碼學習
Scrapy經常使用代碼片斷spa
Scrapy經常使用設置
Scrapy參考資料
使用
能夠利用scrapy shell 分析網頁
經過sel.xpath() 返回一個Selector, 能夠判斷頁面結構是否存在。
使用中遇到的一些問題
針對以上問題,下面給出具體的代碼示例
使用custom_settings 該設置是一個dict.當啓動spider時,該設置將會覆蓋項目級的設置. 因爲設置必須在初始化(instantiation)前被更新,因此該屬性 必須定義爲class屬性
防止爬蟲被ban
過濾重複的Item
把Item存儲到MySQL的Pipeline
把Item保存到JSON文件