Web Scraper 高級用法——如何導入別人已經寫好的 Web Scraper 爬蟲 | 簡易數據分析 06

時間 2020-04-18

標籤 web scraper 高級用法如何導入別人已經寫好爬蟲簡易數據分析欄目 HTML 简体版

原文原文鏈接

這是簡易數據分析系列的第 6 篇文章。html

上兩期咱們學習瞭如何經過 Web Scraper 批量抓取豆瓣電影 TOP250 的數據，內容都太乾了，今天咱們說些輕鬆的，講講 Web Scraper 如何導出導入 Sitemap 文件。python

前面也沒有說，SItemap 是個什麼東西，其實它就是咱們操做 Web Scraper 後生成的爬蟲文件，至關於 python 爬蟲的源代碼，導入 Web Scraper 一運行就能夠爬取數據。學習了這一章節，就能夠分享咱們的設置好的爬蟲文件了。web

導出 Sitemap

導出 Sitemap 很簡單，好比說咱們建立的 top250 Sitemap，點擊 Sitemap top250，在下拉菜單裏選擇 Export Sitemap，就會跳到一個新的面板。學習

新的面板裏有咱們建立的 top250 的 Sitemap 信息，咱們把它複製下來，再新建一個 TXT 文件，粘貼保存就行了。spa

導入 Sitemap 也很簡單，在建立新的 Sitemap 時，點擊 Import Sitemap 就行了。3d

在新的面板裏，在 Sitemap JSON 裏把咱們導出的文字複製進去，Rename Sitemap 裏取個名字，最後點擊 Import Sitemap 按鈕就能夠了。code

這期咱們介紹了 Web Scraper 如何導入導出 Sitemap 爬蟲文件，下一期咱們對上一期的內容進行擴展，不僅僅抓取 250 個電影名，還要抓取每一個電影對應的排名，名字，評分和一句話影評。htm