小白也能夠看會的破解抖音字體反爬

如今的網站,到處都是反爬,咱們這些爬蟲的常常須要和他們鬥智鬥勇,就看誰更厲害。這不,就連字體也弄成了反爬,並且還不止一個網站,常見的就有貓眼和汽車之家。不過,字體反爬也沒有用,畢竟咱們會破!哈哈。html

抖音的字體反爬是在一個分享我的主頁的連接中,別的連接暫時沒有測試,不過破了一個其餘的也就破了。編程

分享主頁能夠這樣得到:瀏覽器

1). 點擊迪麗熱巴我的主頁bash

2).點擊左上角工具

3).再點擊左上角分享以連接方式複製學習

作完以後你就能夠得到這樣一條連接:v.douyin.com/NT5Nck/測試

在瀏覽器打開能夠看到:字體

連接編程了這樣:www.iesdouyin.com/share/user/…網站

根據經驗很容易知道前面的參數就是用戶的 id 號,後面的就是時間戳,能夠去掉的。編碼

有了這個頁面以後怎麼將我的主頁的名稱、粉絲、點贊量等爬下來呢?接下來就是教你這個,請繼續往下看!

1. 分析破解反爬字體

打開開發者調試工具,很容易就能夠看到數據所在的請求的連接

點擊咱們須要獲取的粉絲數,你能夠看到:

能夠看到,字體都變成了正方形,很明顯這個作了反爬。那咱們再看看請求返回來的 html 信息。

能夠看到一堆編碼,並且都是數字變成了這樣,全部抖音將這些數字的數據都作了字體進行映射,用了他們本身的字體,那咱們能夠看看開發者工具的 network 查看他所用的字體,通常都是 wolf 或者 ttf 結尾的,能夠看到:

s3.bytecdn.cn/ies/resourc…

在瀏覽器輸入上面地址就能夠下載該字體了。

下載完以後咱們能夠用 Python 的一個工具包 fontTools 來查看字體映射。

若是你沒有這個包的話,可在命令行輸入下面代碼進行下載工具包:

pip install fontTools
複製代碼

使用 fontTools 將字體文件轉爲 XML 文件,下面爲代碼:

轉換以後查看文件,你就能夠看到之間的映射了,以下:

code 爲咱們在請求中顯示的編碼,name爲映射,到咱們須要找的是數字,num_ 表明的又是哪些數字呢?,若是你再找找,你會發現這個:

是否是感受已經找到了,恭喜你,你被坑了,這個並非,若是你第一次遇到的話,估計都會被它坑一次,這個並非剛纔的什麼數字映射,只是一些 id 名字罷了。

這時就須要咱們另借助一個字體軟件了:FontCreator, 軟件百度官網下載安裝便可。

用這個軟件打開字體,能夠看到新大陸:

這個就是咱們須要找的映射,配合上面在 XML 文件中找的映射,一塊兒用,這個就破解了。

2.代碼實現

用 Python 代碼只須要把它們之間的映射搞清楚就好了,因此咱們可使用字典來保存這些數據。

這個就是在軟件上看到的映射關係,再來弄弄在 XML 中的編碼對應關係

經過一行一行地讀取 XML 文件的內容,找出映射並存儲在相應的字典中,這就能夠了,大功告成。

3.其餘數據的獲取

我打算爬的是抖音的用戶數據,先找了 1000 個抖音大號來爬取,接着會經過他們的粉絲列表再來爬取別的用戶,這樣就差很少可以把抖音的大多數用戶獲取了,具體怎樣爬取粉絲列表,下篇文章告訴你!期待的就點個「好看」支持下?

下面是 1000 個抖音大號的部分爬取代碼:

上面的就是我須要存儲的內容。

因爲篇幅問題,其餘的就不放出來了,想要源碼的關注公衆號進行獲取

「如下內容,本人僅供學習交流,切勿用於商業用途」

相關文章
相關標籤/搜索