python爬蟲備忘(5)

今天開始學習python爬蟲的scrapy庫,它是一個爬蟲框架,用戶通過配置可以對規模較大的網站進行爬取。 它通過命令行的形式來進行調用。 5+2結構: 常見指令: 建立一個目錄: init和items不需用戶編寫。 然後可以生成一個名爲demo的爬蟲文件。 可以看到spider目錄下生成了一個demo.py文件。 name是爬蟲的名字,allowed_domains是要爬取的域名,下面start
相關文章
相關標籤/搜索