python爬蟲備忘（5）

時間 2021-01-12

原文原文鏈接

今天開始學習python爬蟲的scrapy庫，它是一個爬蟲框架，用戶通過配置可以對規模較大的網站進行爬取。它通過命令行的形式來進行調用。 5+2結構：常見指令：建立一個目錄： init和items不需用戶編寫。然後可以生成一個名爲demo的爬蟲文件。可以看到spider目錄下生成了一個demo.py文件。 name是爬蟲的名字，allowed_domains是要爬取的域名，下面start

>>阅读原文<<