記一次有意思的爬蟲

時間 2019-11-20

標籤一次有意思爬蟲欄目網絡爬蟲简体版

原文原文鏈接

本人在以前實習的時候就接觸過爬蟲，到如今陸陸續續爬過一些東西微信

用WebCollector爬過微信公衆號文章、百度新聞、百度BBS等，網站

用HtmlUnit爬過域名-IP關係，目前正用原生HtppClient爬過一些網站的文件。spa

最近作實驗又須要爬一些數據，某xun沒有難度，分析了下HTTP連接，線程

找到真正的請求的HTTP請求，直接爬獲得JSON格式數據，就是我爬的有點兇。blog

由於數據不是不少，我想速戰速決，單IP十個線程，第一次是半夜爬的，沒封，爬了1萬條；圖片

第二次是下午爬的，兩萬條只爬了1萬條左右，被封了。域名

今天下午爬某du，其實就是我提交個數據，某度給我返回個yes or no就好了。it

頁面上明明看獲得數據，既不是圖片，也不是文字（鼠標選不中），源代碼裏也沒有數據。百度

分析了各類連接，也沒有額外獲取數據的HTML、JS請求。請求

最後在源代碼裏發現了蹊蹺，兩種不一樣返回結果以下：

以前一直找漢字去了，因此沒找到；應該是他們根據這兩種返回結果，用CSS作了處理。

也是第一次遇到這種狀況，比較有意思，哈哈。

相關文章

相關標籤/搜索

爬蟲－反爬蟲

Hibernate教程

每日一句

每一个你不满意的现在，都有一个你没有努力的曾经。

最新文章

本站公眾號

歡迎關注本站公眾號,獲取更多信息

相關文章

>>更多相關文章<<