爬蟲 : url的自動補全

正常的url是有前綴 https://note.youdao.com 的,而有些a標籤的url只有path路徑,要實現自動拼接有兩種辦法: 1、需要先提取a標籤中的部分url以後才能使用urljoin() 2、不需要提取a標籤中的部分,LinkExtractor會自動提取並且補全url from scrapy.linkextractors import LinkExtractor 獲取某個a標籤的
相關文章
相關標籤/搜索