Python數據可視化：豆瓣電影TOP250

時間 2021-01-24

標籤 css 框架 dom scrapy ide 學習網站編碼 url spa 欄目 Python 简体版

原文原文鏈接

豆瓣電影TOP250，對於衆多爬蟲愛好者，應該並不陌生。css

不少人都會以此做爲第一個練手的小項目。框架

固然這也多虧了豆瓣的包容，沒有加以太多的反爬措施，對新手比較友好。dom

本期經過Scrapy框架，對豆瓣電影TOP250信息進行爬取。scrapy

同時對獲取的數據進行可視化分析，給你們帶來一個不同的TOP250。ide

/ 01 / Scrapy學習

以前瞭解了pyspider框架的使用，可是就它而言，只能應用於一些簡單的爬取。網站

對於反爬程度高的網站，它就顯得力不從心。編碼

那麼就輪到Scrapy上場了，目前Python中使用最普遍的爬蟲框架。url

固然目前我學習的都是簡單爬蟲，上述內容都是道聽途說，並非切身體會。spa

Scrapy的安裝相對複雜，依賴的庫較多。

不過經過度娘，最後我是成功安裝了的。放在C盤，現在個人C盤要爆炸。

首先任意文件夾下命令行運行scrapy startproject doubanTop250，建立一個名爲doubanTop250的文件夾。

而後在文件夾下的py文件中改寫程序。

進入文件夾裏，命令行運行scrapy genspider douban movie.douban.com/top250。

最後會生成一個douban.py文件，Scrapy用它來從網頁裏抓取內容，並解析抓取結果。

最終修改程序以下。

import scrapy
from scrapy import Spider
from doubanTop250.items import Doubantop250Item

class DoubanSpider(scrapy.Spider):
    name = 'douban'
    allowed_domains = ['douban.com']
    start_urls = ['https://movie.douban.com/top250/']

    def parse(self, response):
        lis = response.css('.info')
        for li in lis:
            item = Doubantop250Item()
            # 利用CSS選擇器獲取信息
            name = li.css('.hd span::text').extract()
            title = ''.join(name)
            info = li.css('p::text').extract()[1].replace('\n', '').strip()
            score = li.css('.rating_num::text').extract_first()
            people = li.css('.star span::text').extract()[1]
            words = li.css('.inq::text').extract_first()
            # 生成字典
            item['title'] = title
            item['info'] = info
            item['score'] = score
            item['people'] = people
            item['words'] = words
            yield item

        # 獲取下一頁連接,並進入下一頁
        next = response.css('.next a::attr(href)').extract_first()
        if next:
            url = response.urljoin(next)
            yield scrapy.Request(url=url, callback=self.parse)
        pass

生成的items.py文件，是保存爬取數據的容器，代碼修改以下。

import scrapy

class Doubantop250Item(scrapy.Item):
    # define the fields for your item here like:
    # name = scrapy.Field()
    title = scrapy.Field()
    info = scrapy.Field()
    score = scrapy.Field()
    people = scrapy.Field()
    words = scrapy.Field()
    pass