爬蟲的另一種思路 -- 從 robots.txt 中找到抓取入口 ...

近兩年出現曾報道一些關於非法抓取數據的程序員被告上法庭的事例, 而非法抓取的一個典型做法就是不遵守網站的 robots.txt 規則進行爬取. 早年就曾有搜索引擎不遵守淘寶的 robots.txt 還去收錄網站的信息被告的案例. 在 Scrapy 中的 settings.py 中默認是遵守 robots.txt 的, 一般我們也不會去關閉. 禁止示例 今天在做收集新聞數據爬蟲的時候便碰到被 rob
相關文章
相關標籤/搜索