一個隨機切換user_agent的第三方python庫:my_fake_useragent

由於my_fake_useragent 是第三方,因此須要本身進行安裝。python

不用擔憂,它沒有任何依賴或者附加環境,只安裝它本身就行。面試

方法1:windows

pycharm傳統安裝方式。

方法2:瀏覽器

pip install ...

fake_useragent 和 my_fake_useragent 實際上是一個東西。安全

使用:這裏只列舉兩個最簡單的方式去調用。服務器

# -*- coding: utf-8 -*-

import my_fake_useragent as ua

if __name__ == '__main__':
user_agent = ua.UserAgent()

# 方法1
# 隨機獲取一個user-agent,每次獲取的都不同
for _ in range(10):
print(user_agent.random())

# 方法2
# user_agent.get_useragent_list(): 返回一個user-agent的列表
for index, each_useragent in enumerate(user_agent.get_useragent_list()):
print(index, ': ', each_useragent)

既然說到了user_agent,那就再多說一點。python爬蟲

乍看user agent 時,只以爲它是一串亂七八糟的字符串,其實包含的內容仍是挺多的。中文名爲用戶代理(區別於爬蟲時使用的代理ip),簡稱UA,是一個特殊字符串頭,使得服務器可以識別客戶使用的操系統及版本、CPU類型、瀏覽器及版本、瀏覽器渲染引擎、瀏覽器語言等。dom

一些網站經常經過 UA 來給不一樣的操做系統、不一樣的瀏覽器發送不一樣的頁面。網站

UA字串的標準格式:加密

瀏覽器標識(操做系統標識;加密等級標識;瀏覽器語言)渲染引擎標識 版本信息

下面列舉 UA 中包含的字符串信息

操做系統標識
FreeBSD
X11; FreeBSD (version no.) i386
X11; FreeBSD (version no.) AMD64
Linux
X11; Linux ppc
X11; Linux ppc64
X11; Linux i686
X11; Linux x86_64
Mac
Macintosh; PPC Mac OS X
Macintosh; Intel Mac OS X
Solaris
X11; SunOS i86pc
X11; SunOS sun4u
Windows:
Windows NT 10.0 對應操做系統windows 10
windows NT 6.2 對應操做系統 windows 8
Windows NT 6.1 對應操做系統 windows 7
Windows NT 6.0 對應操做系統 windows vista
Windows NT 5.2 對應操做系統 windows 2003
Windows NT 5.1 對應操做系統 windows xp
Windows NT 5.0 對應操做系統 windows 2000
Windows ME
Windows 98
加密等級標識 N: 表示無安全加密 I: 表示弱安全加密 U: 表示強安全加密
瀏覽器語言 在首選項 > 常規 > 語言中指定的語言
渲染引擎 瀏覽器 使用 Presto 渲染引擎,格式爲: Presto/版本號
版本信息 顯示 瀏覽器 真實版本信息,格式爲: Version/版本號

用這些信息去剛纔的python代碼輸出中去對照,基本都能找到對應的信息。說這些,實際上是python爬蟲面試過程當中可能會被問到的一個點,雖然是個冷門的知識點,不過了解一下也好。

相關文章
相關標籤/搜索