PyCharm下進行Scrapy項目的調試

時間 2019-11-16

原文原文鏈接

PyCharm下進行Scrapy項目的調試，能夠在爬蟲項目的根目錄建立一個main.py，而後在PyCharm設置下運行路徑，那麼就不用每次都在命令行運行代碼，直接運行main.py就能啓動爬蟲了。javascript

一、首先建立一個Scrapy項目：

在命令行輸入：java

scrapy startproject project_name複製代碼

project_name爲項目名稱，好比個人項目名稱爲py_scrapyjobbole，生成的目錄爲：web

二、建立新的Spider

在命令行輸入：chrome

scrapy genspider jobbole(spider名稱) blog.jobbole.com(爬取的起始url)複製代碼

# -*- coding: utf-8 -*-
import scrapy


class JobboleSpider(scrapy.Spider):
    name = 'jobbole'
    allowed_domains = ['blog.jobbole.com']
    start_urls = ['http://blog.jobbole.com/111322/']

    def parse(self, response):
        re_select = response.xpath('//*[@id="post-111322"]/div[1]/h1')
        pass複製代碼

三、配置setting.py文件（這步很重要）

BOT_NAME = 'py_scrapyjobbole'

SPIDER_MODULES = ['py_scrapyjobbole.spiders']
NEWSPIDER_MODULE = 'py_scrapyjobbole.spiders'

# Crawl responsibly by identifying yourself (and your website) on the user-agent
# USER_AGENT = 'py_scrapyjobbole (+http://www.yourdomain.com)'

# Obey robots.txt rules
ROBOTSTXT_OBEY = False複製代碼

ROBOTSTXT_OBEY = False必定要設置成 False，斷點調試才能正常進行。<>app

四、在工程目錄下創建main.py文件，稍後將會在這裏面進行調試！

from scrapy.cmdline import execute
import sys
import os

# 打斷點調試py文件
# sys.path.append('D:\PyCharm\py_scrapyjobbole')
sys.path.append(os.path.dirname(os.path.abspath(__file__)))
print(os.path.dirname(os.path.abspath(__file__)))
execute(['scrapy', 'crawl', 'jobbole'])複製代碼