LinkExtractor中的一個坑！（scrapy crawlspider）

時間 2021-01-11

原文原文鏈接

** LinkExtractor中的鏈接提取會默認過濾部分連接 ** linkextractor連接提取器會默認將一些例如css pdf doc 等後綴的鏈接過濾掉！！折騰了好久才發現，目前沒有找到解決辦法，暫時去源碼中將其定義的後綴名列表將我需要爬取的刪掉了解決，先留個坑以後再來填