當spider發出請求以後會返回response。response是一個類,其中包括一些內置的屬性。html
bodyscrapy
response.body.decode(response.encoding)ide
例如: response.body.decode(‘gbk’)編碼
當抓取網頁時,你作的最多見的任務是從HTML源碼中提取數據。Scrapy選擇器構建於 lxml 庫之上,這意味着它們在速度和解析準確性上很是類似。Scrapy selector是以文字(text)或TextResponse構造的Selector實例。spa
class scrapy.selector.Selector(response=None, text=None, type=None)code
response經過選擇器Selector做用後,再經過處理(如XPath)後獲得的數據都是Unicode的形式xml
sel = Selector(response)htm
例子:對象
>>> from scrapy.selector import Selector
>>> from scrapy.http import HtmlResponseutf-8>>> body = ‘good’ >>> Selector(text=body).xpath(‘//span/text()’).extract() >>> [u’good’]