scrapy爬蟲使用總結——技巧和天坑

簡介

scrapy爬蟲這個東西我就很少作介紹了,總之是一個很好用的Python爬蟲庫,且關於scrapy也有較多的教程。這篇文章記錄一下我我的的項目規劃和天坑心得。javascript

一般來講,咱們執行了scrapy startproject example後就會建立這樣的一個文件結構,大體以下:java

├── example
│   ├── __init__.py
│   ├── __pycache__
│   ├── items.py
│   ├── middlewares.py
│   ├── pipelines.py
│   ├── settings.py
│   └── spiders
│       ├── __init__.py
│       └── __pycache__
└── scrapy.cfg

咱們一般寫爬蟲都是在spiders裏寫爬蟲解析規則,以及編寫數據存儲程序。python

基礎spider

咱們首先來看爬蟲程序,最基本是如下這個樣子:web

import scrapy
from sqlalchemy import distinct

class ExampleSpider(scrapy.Spider):
    name = 'example_spider'
    allowed_domains = []
    start_urls = [
            'https://www.example.com'
        ]
    def parse(self,response):
        pass

這樣的一個基本爬蟲,只要配置好start_urls,在這裏寫上咱們想要去爬的URL,能夠編寫不少個,start_urls是一個數組。而後執行scrapy crawl example_spider就會自動去爬數據了。這裏的parse方法是繼承父類scrapy.Spider的解析方法,此處沒有作任何結果解析以及存儲。sql

在這個地方,其實咱們要注意一點是,ExampleSpider這個類名咱們能夠瞎姬霸命名,咱們在調用scrapy crawl [爬蟲名]的時候,這個爬蟲名是根據這個類裏的name屬性來的,此處的nameexample_spider,因此咱們在執行的時候就是:scrapy crawl example_spider。固然在具體的編寫過程當中我我的建議是不要瞎姬霸命名,按照業務邏輯來。chrome

再回頭看我上面所展現的文件夾結構,隨着業務的增加,咱們極可能編寫個成百上千的爬蟲,那麼每一個爬蟲都放到spiders一個文件夾裏的話,要理清的話就要花大力氣了,而實際上,在spiders其實能夠建立任意的子文件夾進行邏輯上的分類,執行crawl的時候,會自動去遍歷路徑找到咱們制定的爬蟲,至於你編寫了哪些爬蟲,一樣能夠經過crapy list列出來。segmentfault

分頁爬技巧

分頁爬蟲技巧,其實在搜索引擎上都能找到,並且在segmentfault上都能搜到相應的解答,主要就在parse方法中判斷條件或者說找到下一頁的URL,而後用協程yield一下scrapy.Request就能夠了,也就是用協程方式手動執行一下scrapy的Request方法,對於Request具體的返回,我沒有深刻看源代碼研究,大概是在scrapy的底層再次作了必定的處理,實際的請求並非Request類發起的。數組

經常使用配置

這裏要結合一些緣由來進行說明。瀏覽器

  • 一般來講,移動端的數據更好爬,咱們能夠用chrome的開發者工具模擬移動端瀏覽器,而後看移動端的數據交互形式以及移動端HTML數據格式。
  • 另外就是咱們爬的時候一般爲了防止被封IP,不能太頻繁,通常是間隔1s鍾去取一次數據這樣子。

因此從上面兩方面來講,咱們在本身寫的爬蟲類中加上一個類屬性download_delay,如dom

import scrapy
from sqlalchemy import distinct

class ExampleSpider(scrapy.Spider):
    download_delay = 1 # 1s鍾發起一次請求,當前爬蟲執行過程當中,對任何位置的Reqeust都有效
    name = 'example_spider'
    allowed_domains = []
    start_urls = [
            'https://www.example.com'
        ]
    def parse(self,response):
        pass

另外就是在settings.py設置

DEFAULT_REQUEST_HEADERS = {
   'user-agent' : 'Mozilla/5.0 (Linux; Android 6.0; Nexus 5 Build/MRA58N)             AppleWebKit/537.36 (KHTML, like Gecko) Chrome/68.0.3423.2 Mobile Safari/537.36'
}

一個這樣的header頭,模擬手機瀏覽器。

錯入日誌的重要性

在作爬蟲的時候,很是重要的一點就是錯誤日誌的記錄,一般來講咱們在settings.py中配置如下兩個參數:

LOG_LEVEL = 'DEBUG'
LOG_FILE = './log.log' # 錯誤日誌記錄文件及路徑

一般來講,咱們最好是把LOG_LEVEL設置爲DEBUG,也就是說,咱們把全部的調試信息都輸入到錯誤日誌中進行記錄,方便檢查編寫爬蟲過程當中可能出現的任何問題,儘量的確保每一個環節不出錯。

若是沒有意識到錯誤日誌的重要性,在寫爬蟲的過程當中只能抓瞎了,我是踩了好幾回大坑纔有過這種覺悟。

數據存儲

數據存儲,我我的用的是sqlalchemy,是一個很強大的庫,我我的也作了些基礎的封裝,使用起來更方便。

數據存儲一方面多是在parse方法中進行解析後處理,另外的話,parse能夠進行統一解析,而後在close進行所有批量存儲,主要看具體的業務邏輯狀況。

遇到過最坑爹的問題

最坑爹的問題就是要千萬保證數據來源性的可靠,必定要反覆對比其來源數據是否有問題,否則出現咱們所醫療以外的數據狀況,極可能找不到緣由。

舉個例子,咱們在作分頁處理的時候,已經到末尾頁了,一般就能夠斷定結束爬蟲了,但假設在某一個數據分類下,這個末尾頁其實有個連接指向了其餘分類頁,然而在web瀏覽器中經過javascript程序禁止了跳轉,而後就陷入了不斷循環的取數據的過程當中或者重複取了數據。固然這個是一個不太可能存在的可能狀況,不過我在編寫的過程當中就遇到過相似的問題,在處理的時候千萬要保證數據解析和來源數據的可靠性,切記切記!

相關文章
相關標籤/搜索