給大家說幾點鮮有人知的爬蟲技巧

今天小帥b想跟分享幾個
css

關於爬蟲能夠用到的技巧python



圖片



只要技巧使用得當web

那麼儘管姿式再多
ide

也能感到爽爽的了
學習


那麼,如何才能爽呢?字體

接下來就是網站

學習python的正確姿式搜索引擎


圖片


技巧一
google

換個角度,解鎖新姿式加密


我知道

你在爬取某些 web 網站的時候

被各類反爬弄得哭天喊地


什麼幾把 css 字體加密

什麼幾把 js 的 MD5 等

各類亂七八糟的加密

什麼幾把各類飛的驗證碼





這時候

就別太執着於 web PC 端嘛

我們去看看人家的移動端

看看人家的 H5


在爬取前能夠問問對方:

「在嗎?看看 H5」




可能你會在移動端發現驚喜

數據都是同樣的數據

冤冤相報什麼時候了





技巧二

夜太美,爬蟲就沒那麼危險


在爬取的時候

不要猛攻嘛~

人家受不了啊


你要學會停頓

剋制一點

該 sleep 就 sleep





要趁人家睡覺的時候

限制防範程度低的時候

能晚點就晚點再去爬

沒看過凌晨四點的洛杉磯

可是你能夠看到凌晨四點的爬蟲啊


這樣你買的 IP 纔不會頻繁被封





技巧三

善用他人的 UA


若是你去看別人網站的 robots.txt

你就會看到別人的聲明


聲明什麼東西是能夠爬取

什麼東西是不容許被爬的


但你經常忽略了一個東西

人家聲明瞭但願給什麼搜索引擎爬


好比這個




看到沒

這是別人定義的 robots

值得注意的是

尚亮亮的 User-agent


那麼當你在 Python 構造 Header 的時候

User-agent 就直接指定他們 robots 定義的就行了啊


好比 百度的UA,google的UA,360的UA



你再去爬取看看

那是一個友好啊







技巧四

插件讓你節省時間


有時候咱們要拿一些關鍵的數據

每每會用到 xpath、css selctor 之類的


本身一個一個去比對獲取

那就太麻煩了啊


還記得以前說得這個嗎?

吐血分享這兩個爬蟲用到的 Chrome 牛逼插件


記得用起來呀





技巧五

那 Header 快速生成吧


每一次你在複製 request header 的時候

是否是有一大串有的沒的

又不得不復制過來

在你的 Python 中使用



圖片


但是

格式又不對

每次操做很麻煩是不?


那你能夠本身寫一個方法

參數就是你複製的 header 字符串

而後生成 header 的字典格式


不就完事了





技巧六

爬取整站實際上是這樣的


有時候你想爬取整個網站的url

怎麼辦呢?


不是去首頁一個一個抓

你應該找到對方的 sitemap.xml


由於網站通常但願 Google 或者百度快點收錄他們的網站


因此他們會把本身的網站的 url 生成 sitemap 提交


這個時候 sitemap 就包含了這個網站全部可爬取的 url


sitemap通常在網站的根目錄下

能夠在他們的 robots.txt 看看他們指定的位置


好比貓眼電影的sitemap:





從而獲取 sitemap 再去請求裏面的 url 便可!





ojbk

以上就是小帥b

給你分享的爬蟲技巧

但願對你有幫助

那麼咱們下回見

peace


圖片

相關文章
相關標籤/搜索