python爬蟲10 | 網站維護人員:真的求求大家了,不要再來爬取了!!

今天css

 

小帥b想給你們講一個小明的小故事python

 

 

...程序員

 

 

 

 

話說ajax

 

在好久好久之前瀏覽器

 

小明不當心發現了一個叫作服務器

 

學習python的正確姿式cookie

 

的公衆號網絡

 

今後一發不可收拾多線程

 

看到什麼網站都想爬取python爬蟲

 

 

有一天

 

小明發現了一個小黃網

 

裏面的小姐姐

 

一個比一個誘人

 

看了一會這個小黃網

 

小明不知道在倒騰什麼

 

反正30秒以後小明虎軀一震

 

 

....

 

 

那天晚上

 

小明躺在牀上

 

夜不能寐

 

腦子一直都停留在那個

 

忽然靈光一閃

 

我這不是剛學了爬蟲技術麼

 

我應該把那個網站上的小姐姐都爬取到本身的電腦啊

 

就算下次那個沒了

 

本身也還有東西可看

 

真是佩服本身的機智啊

 

 

.....

 

次日小明就開始爬取

 

小明使用

 

python爬蟲入門01:教你在 Chrome 瀏覽器輕鬆抓包

 

抓了一下數據的請求

 

而後用

 

python爬蟲04 | 長江後浪推前浪,Reuqests庫把urllib庫拍在沙灘上

 

開啓一頓的騷操做

 

 

...

 

哎~

 

小明仍是太年輕了

 

這時候網絡運維人員看到了本身的服務器

 

「瓦里割草」

 

怎麼忽然被瘋狂的請求?

 

趕忙看一下日誌

 

媽的,都是同一個 IP

 

誰他媽閒着沒事來搞我?

 

小夥再定睛一看

 

我去, user-agent 是 python 程序

 

把小夥子給氣的啊

 

直接把對方的 ip 地址給封了(加入黑名單)

 

 

....

 

 

小明原本覺得一切都能按本身計劃行事

 

沒想到忽然中斷了

 

小明從新運行了一下程序

 

發現徹底沒法鏈接了

 

覺得是本身的網絡斷了

 

但是本身上百度是能夠的啊

 

後來忽然想到

 

好像以前 小帥b 說過

 

爬蟲要學會假裝,要否則很容易被對方識破的

 

 

....

 

原來如此

 

小明使用了代理ip

 

把 user-agent 設置爲 Chrome 瀏覽器

 

而後又開始一頓的爬取了

 

還特麼開啓了多線程

 

 

....

 

 

運維人員又發現不對勁

 

媽的

 

這數據不正常,這不正常

 

確定有人又來搞事情了

 

而後就把網站設置爲只有登陸的人才能夠獲取數據

 

.....

 

 

小明發現了

 

以爲這是小意思

 

在這個網站註冊了帳號

 

而後設置了相應的cookie

 

繼續爬!

 

....

 

沒過多久

 

小明的手機忽然響了

 

小明覺得是本身的外賣到了

 

拿起電話就說:來了~

 

結果沒想到的是

 

手機那邊傳來:wcnmlgb!你他媽再爬你看我不弄死你

 

嚇得小明差點yw

 

 

挖槽

 

原來剛剛本身註冊的是本身的手機號碼

 

小明忽然以爲本身太 sb 了

 

....

 

小明原本想就這樣算了的

 

但是剛被罵的以爲很不爽

 

小明把本身的手機關機

 

而後本身註冊了不少個帳號

 

搞了多個 cookie 池

 

一塊兒爬!!

 

 

....

 

 

此次運維人員慌了

 

沒想到對方這麼會搞事情

 

開始對那些頻繁訪問的ip給封了

 

而後給本身的網站加了驗證碼

 

誰他媽想要請求數據

 

都要先輸入一次驗證碼才能夠

 

此次看你怎麼搞

 

....

 

 

小明此次真的是槓上了

 

機器學習識別驗證碼都搞上了

 

直接在程序自動識別驗證碼而後進行請求

 

此次小明徹底不把小帥b放在眼裏了

 

 

....

 

 

運維人員快要沒辦法了

 

忽然看到了一些大量的請求都只是獲取 HTML 數據

 

可是 js 和 css 這些都不請求的

 

不合理

 

因而把整個網站

 

都不直接返回 HTML 了

 

用 ajax 加載

 

.....

 

 

小明呵呵一笑

 

這能難倒我?

 

拿出最近小帥b說的

 

python爬蟲09 | 上來,本身動 !這就是 selenium 的牛逼之處

 

直接模仿人類操做

 

這還沒完

 

聽 小帥b 說還有一個叫作 phantomjs 的玩意

 

selenium + phantomjs 能夠達到徹底模擬瀏覽器操做

 

友情提示:小帥b 下篇推文會跟你們說怎麼使用selenium + phantomjs

 

....

 

這下

 

運維人員真的沒辦法了

 

玩不動了

 

只能說一句

 

真的求求大家了,不要再來爬取了!

 

 

...

 

 

哈~

 

本故事純屬亂吹

 

若有雷同

 

別在乎

 

 

最後

 

你們都是程序員

 

不容易

 

別亂搞事情

 

 

掃一掃

學習 Python 沒煩惱

 

 

 

 

 

相關文章
相關標籤/搜索