不會寫Python代碼如何抓取豆瓣電影 Top 250

時間 2019-11-06

原文原文鏈接

說到爬蟲，大多數人會想到用Python來作，畢竟簡單好用，好比想抓取豆瓣電影top250 的全部電影數據。ps: 我收藏了部分top 250 的電影，能夠回覆對應電影名試試。 html

簡單的代碼以下：程序員

import requests
from bs4 import BeautifulSoup

url = 'https://movie.douban.com/top250'
headers = {'user-agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/77.0.3865.120 Safari/537.36'}
s = BeautifulSoup(requests.get(url, headers=headers).text, 'html.parser')
for link in s.find_all('span', class_='title'):
    print(link.text)
複製代碼

這樣就能夠輸出第一頁的全部電影標題，第二頁的數據還須要代碼處理。 web

但對於非程序員仍是有難度的，有沒有不用寫代碼就能抓取數據的爬蟲工具呢，下面介紹幾個很是實用的爬蟲工具，這裏仍是以爬取豆瓣電影top250爲例。算法

登山虎採集器

登山虎採集器是一款簡單易用的網頁數據採集工具，經過智能算法+可視化界面，爲所欲爲抓取本身想到的數據。先在官網 www.51pashanhu.com/download 下載軟件，如今我下載的版本是 v2.4.7.0 ，它已經內置了幾個採集設置了，好比百度搜索，淘寶商品等。 chrome

先輸入要採集的網址https://movie.douban.com/top250 數據庫

點下一步，由於有10頁，所以要選擇 自動識別分頁

而後保存並採集

採集結果：

默認只能導出到txt，須要升級會員才能導出其餘格式。

成功導出250條數據。

txt文件內容

后羿採集器

后羿採集器是一款面向零基礎用戶的，不限制採集和導出採集結果數量，免費不要積分的採集器，只須要輸入網址就能智能識別採集結果，簡直小白神器！在官網 www.houyicaiji.com/ 下載好軟件編程

輸入網址 movie.douban.com/top250，它會自動分頁加載。

點擊開始採集

採集完成

這個相比上面的登山虎採集器能夠導出 excel csv text 等格式。

我這裏導出到excel，全部電影標題，連接，封面圖片，導演，評價人數都抓取下來了。

八爪魚採集器

八爪魚數據採集器是一款使用簡單、功能強大的網絡爬蟲工具，徹底可視化操做，無需編寫代碼，內置海量模板，支持任意網絡數據抓取，簡易採集模式內置上百種主流網站數據源，如京東、天貓、大衆點評等熱門採集網站，只需參照模板簡單設置參數，就能夠快速獲取網站公開數據。軟件下載地址 www.bazhuayu.com/download ，這個我就不演示了，另外它還有英文版 www.octoparse.com/download 瀏覽器

集搜客

號稱把互聯網裝進表格和數據庫，網址 www.gooseeker.com/ 微信

Web Scraper

Web Scraper 是一款免費的、適用於任何人（沒有任何編程基礎）的爬蟲工具。操做簡單，只需鼠標點擊和簡單的配置，就能快速的爬取 Web 端的數據。網址 webscraper.io，須要先下載Chrome擴展 chrome.google.com/webstore/de… 若是上不了谷歌在公衆號回覆 谷歌獲取擴展。網絡

具體使用教程能夠參考明白大佬的文章www.jianshu.com/p/cd5124ac0…，做者還專門開了一門課程《不用寫代碼的爬蟲課》。

有了上面這些工具，不會代碼的你也能輕鬆抓取你想要的公開數據。