保存數據到MySql數據庫——我用scrapy寫爬蟲（二）

時間 2020-02-07

原文原文鏈接

寫在前面

上一篇（https://www.tech1024.com/orig... ）說了如何建立項目，並爬去網站內容，下面咱們說一下如何保存爬去到的數據css

開始爬取

建立Spider，上一篇咱們已經建立了ImoocSpider，咱們作一下修改，能夠連續下一頁爬取。
scrapyDemo/spiders目錄下的ImoocSpider類：html

# -*- coding: utf-8 -*-

import scrapy
from urllib import parse as urlparse
from scrapyDemo.ImoocCourseItem import ImoocCourseItem


# 慕課網爬取
class ImoocSpider(scrapy.Spider):
    # spider的名字定義了Scrapy如何定位(並初始化)spider，因此其必須是惟一的
    name = "imooc"

    # URL列表
    start_urls = ['http://www.imooc.com/course/list']
    #  域名不在列表中的URL不會被爬取。
    allowed_domains = ['www.imooc.com']

    def parse(self, response):
        learn_nodes = response.css('a.course-card')

        item = ImoocCourseItem()
        # 遍歷該頁上全部課程列表
        for learn_node in learn_nodes:
            course_url = learn_node.css("::attr(href)").extract_first()
            # 拼接課程詳情頁地址
            course_url = urlparse.urljoin(response.url, course_url)
            # 課程地址
            item['course_url'] = course_url
            # 課程圖片
            item['image'] = learn_node.css(
                "img.course-banner::attr(src)").extract_first()
            # 進入課程詳情頁面
            yield scrapy.Request(
                url=course_url, callback=self.parse_learn, meta=item)

        # 下一頁地址
        next_page_url = response.css(
            u'div.page a:contains("下一頁")::attr(href)').extract_first()
        if next_page_url:
            yield scrapy.Request(
                url=urlparse.urljoin(response.url, next_page_url),
                callback=self.parse)

    def parse_learn(self, response):
        item = response.meta
        # 課程標題
        item['title'] = response.xpath(
            '//h2[@class="l"]/text()').extract_first()
        # 課程簡介
        item['brief'] = response.xpath(
            '//div[@class="course-brief"]/p/text()').extract_first()
        yield item

這裏用到了scrapyDemo目錄下ImoocCourseItem類，下面我就說一下。node

Item數據容器

在scrapyDemo目錄下建立ImoocCourseItem.py，這個類就是咱們用了保存數據的容器，咱們定義了標題、圖片、簡介、地址。
scrapyDemo目錄下ImoocCourseItem類：python

# -*- coding: utf-8 -*-

# Define here the models for your scraped items
#
# See documentation in:
# http://doc.scrapy.org/en/latest/topics/items.html

import scrapy


class ImoocCourseItem(scrapy.Item):
    # define the fields for your item here like:
    title = scrapy.Field()
    # cate = scrapy.Field()
    image = scrapy.Field()
    # desc = scrapy.Field()
    brief = scrapy.Field()
    # cate = scrapy.Field()
    course_url = scrapy.Field()
    pass

Pipeline管道

Pipeline是用來處理抓取到的數據，咱們在scrapyDemo目錄下建立ScrapydemoPipeline.py類mysql

# -*- coding: utf-8 -*-

# Define your item pipelines here
#
# Don't forget to add your pipeline to the ITEM_PIPELINES setting
# See: http://doc.scrapy.org/en/latest/topics/item-pipeline.html

from scrapyDemo.db.dbhelper import DBHelper


class ScrapydemoPipeline(object):
    # 鏈接數據庫
    def __init__(self):
        self.db = DBHelper()
    
    def process_item(self, item, spider):
        # 插入數據庫
        self.db.insert(item)
        return item

別忘了在配置文件中開啓管道哦，scrapyDemo目錄下的settings.py文件中，找到下ITEM_PIPELINES,修改成web

ITEM_PIPELINES = {
   'scrapyDemo.pipelines.ScrapydemoPipeline': 300,
}

數據庫操做

這裏面咱們用到了數據庫的操做DBHelper類，那麼咱們在scrapyDemo/db目錄下建立dbhelper.py 模塊，記得再建立一個__init__.py哦。sql

# -*- coding: utf-8 -*-

import pymysql
from twisted.enterprise import adbapi
from scrapy.utils.project import get_project_settings  #導入seetings配置
import time


class DBHelper():
    '''這個類也是讀取settings中的配置，自行修改代碼進行操做'''

    def __init__(self):
        settings = get_project_settings()  #獲取settings配置，設置須要的信息

        dbparams = dict(
            host=settings['MYSQL_HOST'],  #讀取settings中的配置
            db=settings['MYSQL_DBNAME'],
            user=settings['MYSQL_USER'],
            passwd=settings['MYSQL_PASSWD'],
            charset='utf8',  #編碼要加上，不然可能出現中文亂碼問題
            cursorclass=pymysql.cursors.DictCursor,
            use_unicode=False,
        )
        #**表示將字典擴展爲關鍵字參數,至關於host=xxx,db=yyy....
        dbpool = adbapi.ConnectionPool('pymysql', **dbparams)

        self.dbpool = dbpool

    def connect(self):
        return self.dbpool

    #建立數據庫
    def insert(self, item):
        sql = "insert into tech_courses(title,image,brief,course_url,created_at) values(%s,%s,%s,%s,%s)"
        #調用插入的方法
        query = self.dbpool.runInteraction(self._conditional_insert, sql, item)
        #調用異常處理方法
        query.addErrback(self._handle_error)

        return item

    #寫入數據庫中
    def _conditional_insert(self, tx, sql, item):
        item['created_at'] = time.strftime('%Y-%m-%d %H:%M:%S',
                                           time.localtime(time.time()))
        params = (item["title"], item['image'], item['brief'],
                  item['course_url'], item['created_at'])
        tx.execute(sql, params)

    #錯誤處理方法

    def _handle_error(self, failue):
        print('--------------database operation exception!!-----------------')
        print(failue)

這裏用到了pymysql和adbapi，adbapi是python的數據庫鏈接池，能夠pip安裝：數據庫

pip install pymysql
pip install Twisted

這裏面還用到了get_project_settings方法，意思是從配置文件settings.py裏邊獲取數據庫配置信息，咱們在scrapyDemo目錄下的settings.py文件最後加入數據庫信息swift

#Mysql數據庫的配置信息
MYSQL_HOST = '192.168.6.1'
MYSQL_DBNAME = 'scrapy_demo_db'         #數據庫名字，請修改
MYSQL_USER = 'root'             #數據庫帳號，請修改 
MYSQL_PASSWD = 'abc-123'         #數據庫密碼，請修改

MYSQL_PORT = 3306               #數據庫端口，在dbhelper中使用

建表語句以下：api

DROP TABLE IF EXISTS `tech_courses`;
CREATE TABLE `tech_courses` (
  `id` int(11) NOT NULL AUTO_INCREMENT,
  `title` varchar(255) DEFAULT NULL,
  `image` varchar(255) DEFAULT NULL,
  `brief` varchar(255) DEFAULT NULL,
  `course_url` varchar(255) DEFAULT NULL,
  `created_at` timestamp NULL DEFAULT NULL ON UPDATE CURRENT_TIMESTAMP,
  PRIMARY KEY (`id`)
) ENGINE=InnoDB AUTO_INCREMENT=0 DEFAULT CHARSET=utf8mb4;

大功告成

咱們在命令行運行項目

F:\techlee\python\scrapyDemo>scrapy crawl imooc
2017-10-25 23:29:18 [scrapy.utils.log] INFO: Scrapy 1.4.0 started (bot: scrapyDemo)
2017-10-25 23:29:18 [scrapy.utils.log] INFO: Overridden settings: {'BOT_NAME': 'scrapyDemo', 'NEWSPIDER_MODULE': 'scrapyDemo.spiders', 'ROBOTSTXT_OBEY': True, 'SPIDER_MODULES': ['scrapyDemo.spiders']}
2017-10-25 23:29:19 [scrapy.middleware] INFO: Enabled extensions:
['scrapy.extensions.corestats.CoreStats',

……

2017-10-26 00:06:48 [scrapy.core.engine] DEBUG: Crawled (200) <GET http://www.imooc.com/learn/127> (referer: http://www.imooc.com/course/list?page=26)
2017-10-26 00:06:48 [scrapy.core.scraper] DEBUG: Scraped from <200 http://www.imooc.com/learn/127>
{'course_url': 'http://www.imooc.com/learn/127', 'image': '//img1.mukewang.com/53966c2c00018bed06000338-240-135.jpg', 'depth': 26, 'download_timeout': 180.0, 'download_slot': 'www.imooc.com', 'retry_times': 1, 'download_latency': 0.24331021308898926, 'title': '玩兒轉Swift', 'brief': '簡介：咱們指望用戶在看完這套教程後，對swift語言的瞭解能達到中上水平。這意味着在接觸Cocoa Touch將一點兒都不費勁，對一些高級概念，諸如閉包 、協議、泛型、內存管理都能有所理解而且有所實踐。這套教程必定比市面上廣泛看到的Swift中文教程深刻，而且演示示例更豐富。'}
2017-10-26 00:06:48 [scrapy.core.engine] INFO: Closing spider (finished)
2017-10-26 00:06:48 [scrapy.statscollectors] INFO: Dumping Scrapy stats:
{'downloader/exception_count': 24,
 'downloader/exception_type_count/twisted.internet.error.TimeoutError': 24,
 'downloader/request_bytes': 359595,
 'downloader/request_count': 836,
 'downloader/request_method_count/GET': 836,
 'downloader/response_bytes': 8680952,
 'downloader/response_count': 812,
 'downloader/response_status_count/200': 812,
 'finish_reason': 'finished',
 'finish_time': datetime.datetime(2017, 10, 25, 16, 6, 48, 884826),
 'item_scraped_count': 779,
 'log_count/DEBUG': 1616,
 'log_count/INFO': 18,
 'log_count/WARNING': 1,
 'request_depth_max': 32,
 'response_received_count': 812,
 'retry/count': 24,
 'retry/reason_count/twisted.internet.error.TimeoutError': 24,
 'scheduler/dequeued': 835,
 'scheduler/dequeued/memory': 835,
 'scheduler/enqueued': 835,
 'scheduler/enqueued/memory': 835,
 'start_time': datetime.datetime(2017, 10, 25, 15, 55, 43, 289328)}
2017-10-26 00:06:48 [scrapy.core.engine] INFO: Spider closed (finished)

若是沒有報錯，咱們的數據庫是否是有數據了呢

779    玩兒轉Swift    //img1.mukewang.com/53966c2c00018bed06000338-240-135.jpg    簡介：咱們指望用戶在看完這套教程後，對swift語言的瞭解能達到中上水平。這意味着在接觸Cocoa Touch將一點兒都不費勁，對一些高級概念，諸如閉包、協議、泛型、內存管理都能有所理解而且有所實踐。這套教程必定比市面上廣泛看到的Swift中文教程深刻，而且演示示例更豐富。    http://www.imooc.com/learn/127    2017-10-26 00:06:48
778    iOS9那些神坑    //img1.mukewang.com/576b7a6a0001573206000338-240-135.jpg    簡介：爲啥我用iOS9開發的應用沒法進行網絡請求？爲啥多出了一個Bitcode編譯選項？什麼又是白名單呢？這些都是iOS9的一些新特性，在咱們的這門課程中都會爲你們一一介紹。
    http://www.imooc.com/learn/609    2017-10-26 00:06:08
777    Cocos2d-x坦克大戰--上    //img4.mukewang.com/570763d20001662806000338-240-135.jpg    簡介：FC上的坦克大戰相信你們都玩過~有逃學玩坦克的能夠本身默默的扣一個1了~咱們如今長大了，學習遊戲開發了。有沒有想過將小時候玩過的遊戲復刻出來了？不爲了彰顯本身的技術，只爲了小時候由於玩遊戲而逃學捱過的打。由資深遊戲開發者徐波老師爲你們復刻的FC坦克大戰吧
    http://www.imooc.com/learn/610    2017-10-26 00:06:08
776    快速入門ThinkPHP 5.0 --模型篇    //img2.mukewang.com/594cf6120001ddaf06000338-240-135.jpg    簡介：一個標準的網站必定離不開數據庫的操做，在本套課程中我和你一塊兒來揭開ThinkPHP5 數據操做的神祕面紗，和你一塊兒愉快的使用 ThinkPHP5 操做數據庫，讓數據庫操做變的更愉悅。    http://www.imooc.com/learn/854    2017-10-26 00:06:08
775    MongoDB Day 2015 深圳    //img4.mukewang.com/56779555000160d106000338-240-135.jpg    簡介：本次年度大會由來自MongoDB內部的專家以及各行業MongoDB大牛關於數據安全、wiredtiger內部機制、OpsManager以及在其它行業方面的成功案例。大會吸引了200多位MongoDB愛好者，會場內座無虛席！    http://www.imooc.com/learn/562    2017-10-26 00:06:08
774    web安全之SQL注入    //img1.mukewang.com/5991489e00019f5c06000338-240-135.jpg    簡介：SQL注入自從WEB和數據庫發展以來就一直存在，並且給WEB應用帶來很大的安全問題，會形成用戶隱私數據的泄露，數據庫版本信息泄露和數據庫攻擊等，給業務帶來很大的損失和很差的社會影響。因此對於咱們WEB開發人員來講，項目開發過程當中必定要培養必定的安全意識，瞭解SQL注入的定義，產生的原理、具體的一些攻擊手法和相應的預防措施，爲了更好的增長開發項目的健壯性和安全性    http://www.imooc.com/learn/883    2017-10-26 00:06:07
773    那些年你遇到的錯誤與異常    //img3.mukewang.com/572b06f40001d1c806000338-240-135.jpg    簡介：本課程主要講解兩部份內容，先從PHP中的錯誤模塊談起，講解了PHP中常見的錯誤類型，剖析了PHP中的錯誤處理。接着又講解了PHP5面向對象過程當中新的錯誤處理方式--異常模塊，由淺入深，講解異常及異常的實戰應用等。    http://www.imooc.com/learn/380    2017-10-26 00:06:07
772    基於Websocket的火拼俄羅斯（基礎）    //img3.mukewang.com/59ed96eb0001fe3606000338-240-135.jpg    簡介：本課程主要帶領你們瞭解要實現火拼俄羅斯的基礎知識WebSocket，以及socket.io,爲後續實現火拼俄羅斯打下基礎。    http://www.imooc.com/learn/861    2017-10-26 00:06:07
771    Java定時任務調度工具詳解之Quartz篇    //img1.mukewang.com/5940992d0001cae906000338-240-135.jpg    簡介：本課程是系列課程Java定時任務調度工具詳解中的Quartz篇，本系列課程旨在經過詳細講述Java定時調度工具的基本概念、工具，和這些工具裏面包含的各個組件之間的關係，以及如何使用這些工具來實現定時調度功能，讓學生可以對Java定時調度工具備一個清晰而準確的認識。而後結合一些經典的使用場景經過手把手的命令行操做進行教學，使同窗們得心用手地使用這些定時調度工具來實現本身想要的功能。講師實戰課程已經上線，詳情：http://coding.imooc.com/learn/list/144.html    http://www.imooc.com/learn/846    2017-10-26 00:06:07