python 豆瓣top250電影的爬取

時間 2019-11-18

標籤 python 豆瓣 top250 欄目 Python 简体版

原文原文鏈接

咱們先看一下豆瓣的robot.txthtml

而後咱們查看top250的網頁連接和源代碼ide

經過對比不難發現網頁間只是start數字發生了變化。url

咱們能夠知道電影內容都存在ol標籤下的 div class屬性爲hd下的a標籤下的span標籤的字符串spa

我利用的是BeautifulSoup庫和requests庫。3d

咱們能夠開始編寫咱們的爬蟲了！code

import requests
from bs4 import BeautifulSoup
import bs4

url = "https://movie.douban.com/top250"
index = 0
for i in range(10):
    url1 = "https://movie.douban.com/top250?"
    start = "start="
    x = i*25
    filter = "&filter="
    url = url1 + start + str(x) + filter
    #print(url)
    r = requests.get(url)
    html = r.text
    soup = BeautifulSoup(html, "html.parser")
    for hd in soup.find_all(class_ = 'hd'):
        index = index+1
        print("{:^10}\t{:^20}\t".format(index, hd.a.span.string))

View Code

爬取結果以下：orm

請勿亂使用爬蟲，你們要合法合規的使用。切不可爲了小利而犯錯誤。htm

相關標籤/搜索

每日一句

每一个你不满意的现在，都有一个你没有努力的曾经。