爬蟲被攔截後的解決方案（注意robots.txt）

時間 2021-05-20

原文原文鏈接

由於課程大作業的緣故初學爬蟲，在爬取貝殼網二手房數據時，由於爬蟲耗時以I/O操作爲主，因此使用多線程爬蟲提速。但是被識別爲機器人並攔截，無法完成爬取。筆者使用了隨機sleep，fake-useragent庫，代理等方法，仍然被攔截。 robots.txt是一個存放在網站根目錄下的ASCII編碼的文本文件。爬蟲在爬網站之前，建議首先訪問並獲取這個robots.txt文件的內容，這個文件裏面的內容會

>>阅读原文<<