記一次有意思的爬蟲

本人在以前實習的時候就接觸過爬蟲,到如今陸陸續續爬過一些東西微信

用WebCollector爬過微信公衆號文章、百度新聞、百度BBS等,網站

用HtmlUnit爬過域名-IP關係,目前正用原生HtppClient爬過一些網站的文件。spa

 

最近作實驗又須要爬一些數據,某xun沒有難度,分析了下HTTP連接,線程

找到真正的請求的HTTP請求,直接爬獲得JSON格式數據,就是我爬的有點兇。blog

由於數據不是不少,我想速戰速決,單IP十個線程,第一次是半夜爬的,沒封,爬了1萬條;圖片

第二次是下午爬的,兩萬條只爬了1萬條左右,被封了。域名

 

今天下午爬某du,其實就是我提交個數據,某度給我返回個yes or no就好了。it

頁面上明明看獲得數據,既不是圖片,也不是文字(鼠標選不中),源代碼裏也沒有數據。百度

分析了各類連接,也沒有額外獲取數據的HTML、JS請求。請求

最後在源代碼裏發現了蹊蹺,兩種不一樣返回結果以下:

以前一直找漢字去了,因此沒找到;應該是他們根據這兩種返回結果,用CSS作了處理。

也是第一次遇到這種狀況,比較有意思,哈哈。

相關文章
相關標籤/搜索