爬蟲被攔截後的解決方案(注意robots.txt)

由於課程大作業的緣故初學爬蟲,在爬取貝殼網二手房數據時,由於爬蟲耗時以I/O操作爲主,因此使用多線程爬蟲提速。但是被識別爲機器人並攔截,無法完成爬取。 筆者使用了隨機sleep,fake-useragent庫,代理等方法,仍然被攔截。 robots.txt是一個存放在網站根目錄下的ASCII編碼的文本文件。爬蟲在爬網站之前,建議首先訪問並獲取這個robots.txt文件的內容,這個文件裏面的內容會
相關文章
相關標籤/搜索