Scrapy中response屬性以及內容提取

時間 2019-11-30

標籤 scrapy response 屬性以及內容提取欄目 Python 简体版

原文原文鏈接

一.屬性

url ：HTTP響應的url地址,str類型css

status：HTTP響應的狀態碼, int類型python

headers ：HTTP響應的頭部, 類字典類型, 能夠調用get或者getlist方法對其進行訪問正則表達式

body：HTTP響應正文, bytes類型函數

text：文本形式的HTTP響應正文, str類型編碼

response.text = response.body.decode(response.encoding)url

encoding：HTTP響應正文的編碼code

reqeust：產生該HTTP響應的Reqeust對象對象

meta：即response.request.meta, 在構造Request對象時, 可將要傳遞給響應處理函數的信息經過meta參數傳入, 響應處理函數處理響應時, 經過response.meta將信息提取出來字符串

selector：Selector對象用於在Response中提取數據使用下面詳細將,主要是 xpath,css取值以後的處理get

xpath(query)：下面詳細講解

css(query) ：下面詳細講解

urljoin(url) ：用於構造絕對url, 當傳入的url參數是一個相對地址時, 根據response.url計算出相應的絕對url.

response.css('css選擇器')返回值是Selector對象

response.css('css選擇器').extract_first()

response.css('css選擇器').extract()

response.css('css選擇器::attr(屬性名)').extract()

(response.css('css選擇器::text').extract()

response.css('xpath選擇器')返回值是Selector對象

相關標籤/搜索

每日一句

每一个你不满意的现在，都有一个你没有努力的曾经。