上一篇(https://www.tech1024.com/orig... )說了如何建立項目,並爬去網站內容,下面咱們說一下如何保存爬去到的數據css
建立Spider,上一篇咱們已經建立了ImoocSpider,咱們作一下修改,能夠連續下一頁爬取。
scrapyDemo/spiders目錄下的ImoocSpider類:html
# -*- coding: utf-8 -*- import scrapy from urllib import parse as urlparse from scrapyDemo.ImoocCourseItem import ImoocCourseItem # 慕課網爬取 class ImoocSpider(scrapy.Spider): # spider的名字定義了Scrapy如何定位(並初始化)spider,因此其必須是惟一的 name = "imooc" # URL列表 start_urls = ['http://www.imooc.com/course/list'] # 域名不在列表中的URL不會被爬取。 allowed_domains = ['www.imooc.com'] def parse(self, response): learn_nodes = response.css('a.course-card') item = ImoocCourseItem() # 遍歷該頁上全部課程列表 for learn_node in learn_nodes: course_url = learn_node.css("::attr(href)").extract_first() # 拼接課程詳情頁地址 course_url = urlparse.urljoin(response.url, course_url) # 課程地址 item['course_url'] = course_url # 課程圖片 item['image'] = learn_node.css( "img.course-banner::attr(src)").extract_first() # 進入課程詳情頁面 yield scrapy.Request( url=course_url, callback=self.parse_learn, meta=item) # 下一頁地址 next_page_url = response.css( u'div.page a:contains("下一頁")::attr(href)').extract_first() if next_page_url: yield scrapy.Request( url=urlparse.urljoin(response.url, next_page_url), callback=self.parse) def parse_learn(self, response): item = response.meta # 課程標題 item['title'] = response.xpath( '//h2[@class="l"]/text()').extract_first() # 課程簡介 item['brief'] = response.xpath( '//div[@class="course-brief"]/p/text()').extract_first() yield item
這裏用到了scrapyDemo目錄下ImoocCourseItem類,下面我就說一下。node
在scrapyDemo目錄下建立ImoocCourseItem.py,這個類就是咱們用了保存數據的容器,咱們定義了標題、圖片、簡介、地址。
scrapyDemo目錄下ImoocCourseItem類:python
# -*- coding: utf-8 -*- # Define here the models for your scraped items # # See documentation in: # http://doc.scrapy.org/en/latest/topics/items.html import scrapy class ImoocCourseItem(scrapy.Item): # define the fields for your item here like: title = scrapy.Field() # cate = scrapy.Field() image = scrapy.Field() # desc = scrapy.Field() brief = scrapy.Field() # cate = scrapy.Field() course_url = scrapy.Field() pass
Pipeline是用來處理抓取到的數據,咱們在scrapyDemo目錄下建立ScrapydemoPipeline.py類mysql
# -*- coding: utf-8 -*- # Define your item pipelines here # # Don't forget to add your pipeline to the ITEM_PIPELINES setting # See: http://doc.scrapy.org/en/latest/topics/item-pipeline.html from scrapyDemo.db.dbhelper import DBHelper class ScrapydemoPipeline(object): # 鏈接數據庫 def __init__(self): self.db = DBHelper() def process_item(self, item, spider): # 插入數據庫 self.db.insert(item) return item
別忘了在配置文件中開啓管道哦,scrapyDemo目錄下的settings.py文件中,找到下ITEM_PIPELINES,修改成web
ITEM_PIPELINES = { 'scrapyDemo.pipelines.ScrapydemoPipeline': 300, }
這裏面咱們用到了數據庫的操做DBHelper類,那麼咱們在scrapyDemo/db目錄下建立dbhelper.py 模塊,記得再建立一個__init__.py哦。sql
# -*- coding: utf-8 -*- import pymysql from twisted.enterprise import adbapi from scrapy.utils.project import get_project_settings #導入seetings配置 import time class DBHelper(): '''這個類也是讀取settings中的配置,自行修改代碼進行操做''' def __init__(self): settings = get_project_settings() #獲取settings配置,設置須要的信息 dbparams = dict( host=settings['MYSQL_HOST'], #讀取settings中的配置 db=settings['MYSQL_DBNAME'], user=settings['MYSQL_USER'], passwd=settings['MYSQL_PASSWD'], charset='utf8', #編碼要加上,不然可能出現中文亂碼問題 cursorclass=pymysql.cursors.DictCursor, use_unicode=False, ) #**表示將字典擴展爲關鍵字參數,至關於host=xxx,db=yyy.... dbpool = adbapi.ConnectionPool('pymysql', **dbparams) self.dbpool = dbpool def connect(self): return self.dbpool #建立數據庫 def insert(self, item): sql = "insert into tech_courses(title,image,brief,course_url,created_at) values(%s,%s,%s,%s,%s)" #調用插入的方法 query = self.dbpool.runInteraction(self._conditional_insert, sql, item) #調用異常處理方法 query.addErrback(self._handle_error) return item #寫入數據庫中 def _conditional_insert(self, tx, sql, item): item['created_at'] = time.strftime('%Y-%m-%d %H:%M:%S', time.localtime(time.time())) params = (item["title"], item['image'], item['brief'], item['course_url'], item['created_at']) tx.execute(sql, params) #錯誤處理方法 def _handle_error(self, failue): print('--------------database operation exception!!-----------------') print(failue)
這裏用到了pymysql和adbapi,adbapi是python的數據庫鏈接池,能夠pip安裝:數據庫
pip install pymysql pip install Twisted
這裏面還用到了get_project_settings方法,意思是從配置文件settings.py裏邊獲取數據庫配置信息,咱們在scrapyDemo目錄下的settings.py文件最後加入數據庫信息swift
#Mysql數據庫的配置信息 MYSQL_HOST = '192.168.6.1' MYSQL_DBNAME = 'scrapy_demo_db' #數據庫名字,請修改 MYSQL_USER = 'root' #數據庫帳號,請修改 MYSQL_PASSWD = 'abc-123' #數據庫密碼,請修改 MYSQL_PORT = 3306 #數據庫端口,在dbhelper中使用
建表語句以下:api
DROP TABLE IF EXISTS `tech_courses`; CREATE TABLE `tech_courses` ( `id` int(11) NOT NULL AUTO_INCREMENT, `title` varchar(255) DEFAULT NULL, `image` varchar(255) DEFAULT NULL, `brief` varchar(255) DEFAULT NULL, `course_url` varchar(255) DEFAULT NULL, `created_at` timestamp NULL DEFAULT NULL ON UPDATE CURRENT_TIMESTAMP, PRIMARY KEY (`id`) ) ENGINE=InnoDB AUTO_INCREMENT=0 DEFAULT CHARSET=utf8mb4;
咱們在命令行運行項目
F:\techlee\python\scrapyDemo>scrapy crawl imooc 2017-10-25 23:29:18 [scrapy.utils.log] INFO: Scrapy 1.4.0 started (bot: scrapyDemo) 2017-10-25 23:29:18 [scrapy.utils.log] INFO: Overridden settings: {'BOT_NAME': 'scrapyDemo', 'NEWSPIDER_MODULE': 'scrapyDemo.spiders', 'ROBOTSTXT_OBEY': True, 'SPIDER_MODULES': ['scrapyDemo.spiders']} 2017-10-25 23:29:19 [scrapy.middleware] INFO: Enabled extensions: ['scrapy.extensions.corestats.CoreStats', …… 2017-10-26 00:06:48 [scrapy.core.engine] DEBUG: Crawled (200) <GET http://www.imooc.com/learn/127> (referer: http://www.imooc.com/course/list?page=26) 2017-10-26 00:06:48 [scrapy.core.scraper] DEBUG: Scraped from <200 http://www.imooc.com/learn/127> {'course_url': 'http://www.imooc.com/learn/127', 'image': '//img1.mukewang.com/53966c2c00018bed06000338-240-135.jpg', 'depth': 26, 'download_timeout': 180.0, 'download_slot': 'www.imooc.com', 'retry_times': 1, 'download_latency': 0.24331021308898926, 'title': '玩兒轉Swift', 'brief': '簡介:咱們指望用戶在看完這套教程後,對swift語言的瞭解能達到中上水平。這意味着在接觸Cocoa Touch將一點兒都不費勁,對一些高級概念,諸如閉包 、協議、泛型、內存管理都能有所理解而且有所實踐。這套教程必定比市面上廣泛看到的Swift中文教程深刻,而且演示示例更豐富。'} 2017-10-26 00:06:48 [scrapy.core.engine] INFO: Closing spider (finished) 2017-10-26 00:06:48 [scrapy.statscollectors] INFO: Dumping Scrapy stats: {'downloader/exception_count': 24, 'downloader/exception_type_count/twisted.internet.error.TimeoutError': 24, 'downloader/request_bytes': 359595, 'downloader/request_count': 836, 'downloader/request_method_count/GET': 836, 'downloader/response_bytes': 8680952, 'downloader/response_count': 812, 'downloader/response_status_count/200': 812, 'finish_reason': 'finished', 'finish_time': datetime.datetime(2017, 10, 25, 16, 6, 48, 884826), 'item_scraped_count': 779, 'log_count/DEBUG': 1616, 'log_count/INFO': 18, 'log_count/WARNING': 1, 'request_depth_max': 32, 'response_received_count': 812, 'retry/count': 24, 'retry/reason_count/twisted.internet.error.TimeoutError': 24, 'scheduler/dequeued': 835, 'scheduler/dequeued/memory': 835, 'scheduler/enqueued': 835, 'scheduler/enqueued/memory': 835, 'start_time': datetime.datetime(2017, 10, 25, 15, 55, 43, 289328)} 2017-10-26 00:06:48 [scrapy.core.engine] INFO: Spider closed (finished)
若是沒有報錯,咱們的數據庫是否是有數據了呢
779 玩兒轉Swift //img1.mukewang.com/53966c2c00018bed06000338-240-135.jpg 簡介:咱們指望用戶在看完這套教程後,對swift語言的瞭解能達到中上水平。這意味着在接觸Cocoa Touch將一點兒都不費勁,對一些高級概念,諸如閉包、協議、泛型、內存管理都能有所理解而且有所實踐。這套教程必定比市面上廣泛看到的Swift中文教程深刻,而且演示示例更豐富。 http://www.imooc.com/learn/127 2017-10-26 00:06:48 778 iOS9那些神坑 //img1.mukewang.com/576b7a6a0001573206000338-240-135.jpg 簡介:爲啥我用iOS9開發的應用沒法進行網絡請求?爲啥多出了一個Bitcode編譯選項?什麼又是白名單呢?這些都是iOS9的一些新特性,在咱們的這門課程中都會爲你們一一介紹。 http://www.imooc.com/learn/609 2017-10-26 00:06:08 777 Cocos2d-x坦克大戰--上 //img4.mukewang.com/570763d20001662806000338-240-135.jpg 簡介:FC上的坦克大戰相信你們都玩過~有逃學玩坦克的能夠本身默默的扣一個1了~咱們如今長大了,學習遊戲開發了。有沒有想過將小時候玩過的遊戲復刻出來了?不爲了彰顯本身的技術,只爲了小時候由於玩遊戲而逃學捱過的打。由資深遊戲開發者徐波老師爲你們復刻的FC坦克大戰吧 http://www.imooc.com/learn/610 2017-10-26 00:06:08 776 快速入門ThinkPHP 5.0 --模型篇 //img2.mukewang.com/594cf6120001ddaf06000338-240-135.jpg 簡介:一個標準的網站必定離不開數據庫的操做,在本套課程中我和你一塊兒來揭開ThinkPHP5 數據操做的神祕面紗,和你一塊兒愉快的使用 ThinkPHP5 操做數據庫,讓數據庫操做變的更愉悅。 http://www.imooc.com/learn/854 2017-10-26 00:06:08 775 MongoDB Day 2015 深圳 //img4.mukewang.com/56779555000160d106000338-240-135.jpg 簡介:本次年度大會由來自MongoDB內部的專家以及各行業MongoDB大牛關於數據安全、wiredtiger內部機制、OpsManager以及在其它行業方面的成功案例。大會吸引了200多位MongoDB愛好者,會場內座無虛席! http://www.imooc.com/learn/562 2017-10-26 00:06:08 774 web安全之SQL注入 //img1.mukewang.com/5991489e00019f5c06000338-240-135.jpg 簡介:SQL注入自從WEB和數據庫發展以來就一直存在,並且給WEB應用帶來很大的安全問題,會形成用戶隱私數據的泄露,數據庫版本信息泄露和數據庫攻擊等,給業務帶來很大的損失和很差的社會影響。因此對於咱們WEB開發人員來講,項目開發過程當中必定要培養必定的安全意識,瞭解SQL注入的定義,產生的原理、具體的一些攻擊手法和相應的預防措施,爲了更好的增長開發項目的健壯性和安全性 http://www.imooc.com/learn/883 2017-10-26 00:06:07 773 那些年你遇到的錯誤與異常 //img3.mukewang.com/572b06f40001d1c806000338-240-135.jpg 簡介:本課程主要講解兩部份內容,先從PHP中的錯誤模塊談起,講解了PHP中常見的錯誤類型,剖析了PHP中的錯誤處理。接着又講解了PHP5面向對象過程當中新的錯誤處理方式--異常模塊,由淺入深,講解異常及異常的實戰應用等。 http://www.imooc.com/learn/380 2017-10-26 00:06:07 772 基於Websocket的火拼俄羅斯(基礎) //img3.mukewang.com/59ed96eb0001fe3606000338-240-135.jpg 簡介:本課程主要帶領你們瞭解要實現火拼俄羅斯的基礎知識WebSocket,以及socket.io,爲後續實現火拼俄羅斯打下基礎。 http://www.imooc.com/learn/861 2017-10-26 00:06:07 771 Java定時任務調度工具詳解之Quartz篇 //img1.mukewang.com/5940992d0001cae906000338-240-135.jpg 簡介:本課程是系列課程Java定時任務調度工具詳解中的Quartz篇,本系列課程旨在經過詳細講述Java定時調度工具的基本概念、工具,和這些工具裏面包含的各個組件之間的關係,以及如何使用這些工具來實現定時調度功能,讓學生可以對Java定時調度工具備一個清晰而準確的認識。而後結合一些經典的使用場景經過手把手的命令行操做進行教學,使同窗們得心用手地使用這些定時調度工具來實現本身想要的功能。講師實戰課程已經上線,詳情:http://coding.imooc.com/learn/list/144.html http://www.imooc.com/learn/846 2017-10-26 00:06:07
原文 https://www.tech1024.com/orig...