今天小帥b想跟分享幾個
css
關於爬蟲能夠用到的技巧python
只要技巧使用得當web
那麼儘管姿式再多
ide
也能感到爽爽的了
學習
那麼,如何才能爽呢?字體
接下來就是網站
學習python的正確姿式搜索引擎
技巧一
google
換個角度,解鎖新姿式加密
我知道
你在爬取某些 web 網站的時候
被各類反爬弄得哭天喊地
什麼幾把 css 字體加密
什麼幾把 js 的 MD5 等
各類亂七八糟的加密
什麼幾把各類飛的驗證碼
這時候
就別太執着於 web PC 端嘛
我們去看看人家的移動端
看看人家的 H5
在爬取前能夠問問對方:
「在嗎?看看 H5」
可能你會在移動端發現驚喜
數據都是同樣的數據
冤冤相報什麼時候了
技巧二
夜太美,爬蟲就沒那麼危險
在爬取的時候
不要猛攻嘛~
人家受不了啊
你要學會停頓
剋制一點
該 sleep 就 sleep
要趁人家睡覺的時候
限制防範程度低的時候
能晚點就晚點再去爬
沒看過凌晨四點的洛杉磯
可是你能夠看到凌晨四點的爬蟲啊
這樣你買的 IP 纔不會頻繁被封
技巧三
善用他人的 UA
若是你去看別人網站的 robots.txt
你就會看到別人的聲明
聲明什麼東西是能夠爬取
什麼東西是不容許被爬的
但你經常忽略了一個東西
人家聲明瞭但願給什麼搜索引擎爬
好比這個
看到沒
這是別人定義的 robots
值得注意的是
尚亮亮的 User-agent
那麼當你在 Python 構造 Header 的時候
User-agent 就直接指定他們 robots 定義的就行了啊
好比 百度的UA,google的UA,360的UA
你再去爬取看看
那是一個友好啊
技巧四
插件讓你節省時間
有時候咱們要拿一些關鍵的數據
每每會用到 xpath、css selctor 之類的
本身一個一個去比對獲取
那就太麻煩了啊
還記得以前說得這個嗎?
記得用起來呀
技巧五
那 Header 快速生成吧
每一次你在複製 request header 的時候
是否是有一大串有的沒的
又不得不復制過來
在你的 Python 中使用
但是
格式又不對
每次操做很麻煩是不?
那你能夠本身寫一個方法
參數就是你複製的 header 字符串
而後生成 header 的字典格式
不就完事了
技巧六
爬取整站實際上是這樣的
有時候你想爬取整個網站的url
怎麼辦呢?
不是去首頁一個一個抓
你應該找到對方的 sitemap.xml
由於網站通常但願 Google 或者百度快點收錄他們的網站
因此他們會把本身的網站的 url 生成 sitemap 提交
這個時候 sitemap 就包含了這個網站全部可爬取的 url
sitemap通常在網站的根目錄下
能夠在他們的 robots.txt 看看他們指定的位置
好比貓眼電影的sitemap:
從而獲取 sitemap 再去請求裏面的 url 便可!
ojbk
以上就是小帥b
給你分享的爬蟲技巧
但願對你有幫助
那麼咱們下回見
peace