給大家說幾點鮮有人知的爬蟲技巧

時間 2021-01-01

標籤 css python web ide 學習字體網站搜索引擎 google 加密欄目網絡爬蟲简体版

原文原文鏈接

今天小帥b想跟分享幾個
css

關於爬蟲能夠用到的技巧python

只要技巧使用得當web

那麼儘管姿式再多
ide

也能感到爽爽的了
學習

那麼，如何才能爽呢？字體

接下來就是網站

學習python的正確姿式搜索引擎

技巧一
google

換個角度，解鎖新姿式加密

我知道

你在爬取某些 web 網站的時候

被各類反爬弄得哭天喊地

什麼幾把 css 字體加密

什麼幾把 js 的 MD5 等

各類亂七八糟的加密

什麼幾把各類飛的驗證碼

這時候

就別太執着於 web PC 端嘛

我們去看看人家的移動端

看看人家的 H5

在爬取前能夠問問對方：

「在嗎？看看 H5」

可能你會在移動端發現驚喜

數據都是同樣的數據

冤冤相報什麼時候了

技巧二

夜太美，爬蟲就沒那麼危險

在爬取的時候

不要猛攻嘛～

人家受不了啊

你要學會停頓

剋制一點

該 sleep 就 sleep

要趁人家睡覺的時候

限制防範程度低的時候

能晚點就晚點再去爬

沒看過凌晨四點的洛杉磯

可是你能夠看到凌晨四點的爬蟲啊

這樣你買的 IP 纔不會頻繁被封

技巧三

善用他人的 UA

若是你去看別人網站的 robots.txt

你就會看到別人的聲明

聲明什麼東西是能夠爬取

什麼東西是不容許被爬的

但你經常忽略了一個東西

人家聲明瞭但願給什麼搜索引擎爬

好比這個

看到沒

這是別人定義的 robots

值得注意的是

尚亮亮的 User-agent

那麼當你在 Python 構造 Header 的時候

User-agent 就直接指定他們 robots 定義的就行了啊

好比百度的UA，google的UA，360的UA

你再去爬取看看

那是一個友好啊

技巧四

插件讓你節省時間

有時候咱們要拿一些關鍵的數據

每每會用到 xpath、css selctor 之類的

本身一個一個去比對獲取

那就太麻煩了啊

還記得以前說得這個嗎？

吐血分享這兩個爬蟲用到的 Chrome 牛逼插件

記得用起來呀

技巧五

那 Header 快速生成吧

每一次你在複製 request header 的時候

是否是有一大串有的沒的

又不得不復制過來

在你的 Python 中使用

但是

格式又不對

每次操做很麻煩是不？

那你能夠本身寫一個方法

參數就是你複製的 header 字符串

而後生成 header 的字典格式

不就完事了

技巧六

爬取整站實際上是這樣的

有時候你想爬取整個網站的url

怎麼辦呢？

不是去首頁一個一個抓

你應該找到對方的 sitemap.xml

由於網站通常但願 Google 或者百度快點收錄他們的網站

因此他們會把本身的網站的 url 生成 sitemap 提交

這個時候 sitemap 就包含了這個網站全部可爬取的 url

sitemap通常在網站的根目錄下

能夠在他們的 robots.txt 看看他們指定的位置

好比貓眼電影的sitemap：

從而獲取 sitemap 再去請求裏面的 url 便可！

ojbk

以上就是小帥b

給你分享的爬蟲技巧

但願對你有幫助

那麼咱們下回見

peace

相關文章

相關標籤/搜索

爬蟲－反爬蟲

Docker命令大全

Hibernate教程

每日一句

每一个你不满意的现在，都有一个你没有努力的曾经。

最新文章

本站公眾號

歡迎關注本站公眾號,獲取更多信息

相關文章

>>更多相關文章<<