建立項目: scrapy startproject myproject cd myproject 建立一個spider scrapy genspider spidername spiderurl.com 查看全部命令: scrapy -h 全局命令: startproject settings runspider shell fetch view version 項目命令: crawl check list edit parse genspider bench 建立項目: startproject scrapy startproject myproject 查看模板: scrapy genspider -l (basic, crawl, csvfeed, xmlfeed) 在當前項目建立spider(使用模板: -t basic) scrapy genspider [-t template] <spiderName> <spiderUrl> 運行spider scrapy crawl myspidername 保存json文件.xml, .jl... scrapy crawl myspider -o fileName.json 檢查項目代碼: scrapy check [-l] [spider] fetch查看網頁返回內容: scrapy fetch <url> 生成靜態頁面 scrapy view url scrapy 終端 scrapy shell url ### parse語法: scrapy parse <url> [options] settings: 查看設置 scrapy settings --get BOT_NAME scrapy settings --get DOWNLOAD_DELAY 運行一個spider runspider: scrapy runspider myspider.py 選擇器使用: 獲取title標籤(第一個)下的文本 response.selector.xpath('//title/text()').extract_first() response.css('title::text').extract_first() 獲取title標籤(全部)下的文本 response.selector.xpath('//title/text()').extract() 獲取子標籤文本 <div id="images"> <a></a> </div> response.xpath('//div[@id="images"]/a/text()').extract_first() 獲取屬性 base標籤的href屬性 response.xpath('//base/@href').extract() response.css('base::attr(href)').extract() href包含image的 response.css('a[href*=image]::attr(href)').extract() response.xpath('//a[contains(@href,"image")]/@href').extract() a標籤包含image的子標籤img的src屬性 response.xpath('//a[contains(@href,"image")]/img/@src').extract() response.css('a[href*="image"] img::attr(src)').extract() re選擇器 response.xpath().re('Name:(.*)') 獲取匹配 () 裏面的全部, re_first()獲取第一個 若是沒有匹配返回None 也能夠 .extract_first('自定義返回')解決中文亂碼問題: scrapy crawl zymkdouluodalu -o file.json -s FEED_EXPORT_ENCODING=utf-8