咱們先看一下豆瓣的robot.txthtml
而後咱們查看top250的網頁連接和源代碼ide
經過對比不難發現網頁間只是start數字發生了變化。url
咱們能夠知道電影內容都存在ol標籤下的 div class屬性爲hd下的a標籤下的span標籤的字符串spa
我利用的是BeautifulSoup庫和requests庫。3d
咱們能夠開始編寫咱們的爬蟲了!code
import requests from bs4 import BeautifulSoup import bs4 url = "https://movie.douban.com/top250" index = 0 for i in range(10): url1 = "https://movie.douban.com/top250?" start = "start=" x = i*25 filter = "&filter=" url = url1 + start + str(x) + filter #print(url) r = requests.get(url) html = r.text soup = BeautifulSoup(html, "html.parser") for hd in soup.find_all(class_ = 'hd'): index = index+1 print("{:^10}\t{:^20}\t".format(index, hd.a.span.string))
爬取結果以下:orm
請勿亂使用爬蟲,你們要合法合規的使用。切不可爲了小利而犯錯誤。htm