說到爬蟲,大多數人會想到用Python來作,畢竟簡單好用,好比想抓取豆瓣電影top250 的全部電影數據。ps: 我收藏了部分top 250 的電影,能夠回覆對應電影名
試試。 html
簡單的代碼以下:程序員
import requests
from bs4 import BeautifulSoup
url = 'https://movie.douban.com/top250'
headers = {'user-agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/77.0.3865.120 Safari/537.36'}
s = BeautifulSoup(requests.get(url, headers=headers).text, 'html.parser')
for link in s.find_all('span', class_='title'):
print(link.text)
複製代碼
這樣就能夠輸出第一頁的全部電影標題,第二頁的數據還須要代碼處理。 web
但對於非程序員仍是有難度的,有沒有不用寫代碼就能抓取數據的爬蟲工具呢,下面介紹幾個很是實用的爬蟲工具,這裏仍是以爬取豆瓣電影top250爲例。算法
登山虎採集器是一款簡單易用的網頁數據採集工具,經過智能算法+可視化界面,爲所欲爲抓取本身想到的數據。先在官網 www.51pashanhu.com/download 下載軟件,如今我下載的版本是 v2.4.7.0 ,它已經內置了幾個採集設置了,好比百度搜索,淘寶商品等。 chrome
先輸入要採集的網址https://movie.douban.com/top250 數據庫
自動識別分頁
后羿採集器是一款面向零基礎用戶的,不限制採集和導出採集結果數量,免費不要積分的採集器,只須要輸入網址就能智能識別採集結果,簡直小白神器!在官網 www.houyicaiji.com/ 下載好軟件 編程
八爪魚數據採集器是一款使用簡單、功能強大的網絡爬蟲工具,徹底可視化操做,無需編寫代碼,內置海量模板,支持任意網絡數據抓取,簡易採集模式內置上百種主流網站數據源,如京東、天貓、大衆點評等熱門採集網站,只需參照模板簡單設置參數,就能夠快速獲取網站公開數據。軟件下載地址 www.bazhuayu.com/download ,這個我就不演示了,另外它還有英文版 www.octoparse.com/download 瀏覽器
號稱把互聯網裝進表格和數據庫 ,網址 www.gooseeker.com/ 微信
Web Scraper 是一款免費的、適用於任何人(沒有任何編程基礎)的爬蟲工具。操做簡單,只需鼠標點擊和簡單的配置,就能快速的爬取 Web 端的數據。網址 webscraper.io,須要先下載Chrome擴展 chrome.google.com/webstore/de… 若是上不了谷歌在公衆號回覆 谷歌
獲取擴展。網絡
具體使用教程能夠參考明白大佬的文章www.jianshu.com/p/cd5124ac0…,做者還專門開了一門課程《不用寫代碼的爬蟲課》。
有了上面這些工具,不會代碼的你也能輕鬆抓取你想要的公開數據。
推薦閱讀: