Scrapy提取數據有本身的一套機制,被稱做選擇器(selectors),經過特定的Xpath或者CSS表達式來選擇HTML文件的某個部分
Xpath是專門在XML文件中選擇節點的語言,也能夠用在HTML上。
CSS是一門將HTML文檔樣式化語言,選擇器由它定義,並與特定的HTML元素的樣式相關聯。css
經常使用的路徑表達式,這裏列舉了一些經常使用的,XPath的功能很是強大,內含超過100個的內建函數。
下面爲經常使用的方法html
nodeName 選取此節點的全部節點 / 從根節點選取 // 從匹配選擇的當前節點選擇文檔中的節點,不考慮它們的位置 . 選擇當前節點 .. 選取當前節點的父節點 @ 選取屬性 * 匹配任何元素節點 @* 匹配任何屬性節點 Node() 匹配任何類型的節點
CSS層疊樣式表,語法由兩個主要部分組成:選擇器,一條或多條聲明
Selector {declaration1;declaration2;……}node
下面爲經常使用的使用方法web
.class .color 選擇class=」color」的全部元素 #id #info 選擇id=」info」的全部元素 * * 選擇全部元素 element p 選擇全部的p元素 element,element div,p 選擇全部div元素和全部p元素 element element div p 選擇div標籤內部的全部p元素 [attribute] [target] 選擇帶有targe屬性的全部元素 [arrtibute=value] [target=_blank] 選擇target=」_blank」的全部元素
上面咱們列舉了兩種選擇器的經常使用方法,下面經過scrapy幫助文檔提供的一個地址來作演示
地址:http://doc.scrapy.org/en/latest/_static/selectors-sample1.html
這個地址的網頁源碼爲:shell
<html> <head> <base href='http://example.com/' /> <title>Example website</title> </head> <body> <div id='images'> <a href='image1.html'>Name: My image 1 <br /><img src='image1_thumb.jpg' /></a> <a href='image2.html'>Name: My image 2 <br /><img src='image2_thumb.jpg' /></a> <a href='image3.html'>Name: My image 3 <br /><img src='image3_thumb.jpg' /></a> <a href='image4.html'>Name: My image 4 <br /><img src='image4_thumb.jpg' /></a> <a href='image5.html'>Name: My image 5 <br /><img src='image5_thumb.jpg' /></a> </div> </body> </html>
咱們經過scrapy shell http://doc.scrapy.org/en/latest/_static/selectors-sample1.html來演示兩種選擇器的功能scrapy
獲取title函數
這裏的extract_first()就能夠獲取title標籤的文本內容,由於咱們第一個經過xpath返回的結果是一個列表,因此咱們經過extract()以後返回的也是一個列表,而extract_first()能夠直接返回第一個值,extract_first()有一個參數default,例如:extract_first(default="")表示若是匹配不到返回一個空spa
In [1]: response.xpath('//title/text()') Out[1]: [<Selector xpath='//title/text()' data='Example website'>] In [2]: response.xpath('//title/text()').extract_first() Out[2]: 'Example website' In [6]: response.xpath('//title/text()').extract() Out[6]: ['Example website']
一樣的咱們也能夠經過css選擇器獲取,例子以下:code
In [7]: response.css('title::text') Out[7]: [<Selector xpath='descendant-or-self::title/text()' data='Example website'>] In [8]: response.css('title::text').extract_first() Out[8]: 'Example website'
查找圖片信息
這裏經過xpath和css結合使用獲取圖片的src地址:htm
In [13]: response.xpath('//div[@id="images"]').css('img') Out[13]: [<Selector xpath='descendant-or-self::img' data='<img src="image1_thumb.jpg">'>, <Selector xpath='descendant-or-self::img' data='<img src="image2_thumb.jpg">'>, <Selector xpath='descendant-or-self::img' data='<img src="image3_thumb.jpg">'>, <Selector xpath='descendant-or-self::img' data='<img src="image4_thumb.jpg">'>, <Selector xpath='descendant-or-self::img' data='<img src="image5_thumb.jpg">'>] In [14]: response.xpath('//div[@id="images"]').css('img::attr(src)').extract() Out[14]: ['image1_thumb.jpg', 'image2_thumb.jpg', 'image3_thumb.jpg', 'image4_thumb.jpg', 'image5_thumb.jpg']
查找a標籤信息
這裏分別經過xapth和css選擇器獲取a標籤的href內容,以及文本信息,css獲取屬性信息是經過attr,xpath是經過@屬性名
In [15]: response.xpath('//a/@href') Out[15]: [<Selector xpath='//a/@href' data='image1.html'>, <Selector xpath='//a/@href' data='image2.html'>, <Selector xpath='//a/@href' data='image3.html'>, <Selector xpath='//a/@href' data='image4.html'>, <Selector xpath='//a/@href' data='image5.html'>] In [16]: response.xpath('//a/@href').extract() Out[16]: ['image1.html', 'image2.html', 'image3.html', 'image4.html', 'image5.html'] In [17]: response.css('a::attr(href)') Out[17]: [<Selector xpath='descendant-or-self::a/@href' data='image1.html'>, <Selector xpath='descendant-or-self::a/@href' data='image2.html'>, <Selector xpath='descendant-or-self::a/@href' data='image3.html'>, <Selector xpath='descendant-or-self::a/@href' data='image4.html'>, <Selector xpath='descendant-or-self::a/@href' data='image5.html'>] In [18]: response.css('a::attr(href)').extract() Out[18]: ['image1.html', 'image2.html', 'image3.html', 'image4.html', 'image5.html'] In [27]: response.css('a::text').extract() Out[27]: ['Name: My image 1 ', 'Name: My image 2 ', 'Name: My image 3 ', 'Name: My image 4 ', 'Name: My image 5 '] In [28]: response.xpath('//a/text()').extract() Out[28]: ['Name: My image 1 ', 'Name: My image 2 ', 'Name: My image 3 ', 'Name: My image 4 ', 'Name: My image 5 '] In [29]:
高級用法
查找屬性名稱包含img的全部的超連接,經過contains實現
In [36]: response.xpath('//a[contains(@href,"image")]/@href').extract() Out[36]: ['image1.html', 'image2.html', 'image3.html', 'image4.html', 'image5.html'] In [37]: response.css('a[href*=image]::attr(href)').extract() Out[37]: ['image1.html', 'image2.html', 'image3.html', 'image4.html', 'image5.html'] In [38]:
查找img的src屬性
In [41]: response.xpath('//a[contains(@href,"image")]/img/@src').extract() Out[41]: ['image1_thumb.jpg', 'image2_thumb.jpg', 'image3_thumb.jpg', 'image4_thumb.jpg', 'image5_thumb.jpg'] In [42]: response.css('a[href*=image] img::attr(src)').extract() Out[42]: ['image1_thumb.jpg', 'image2_thumb.jpg', 'image3_thumb.jpg', 'image4_thumb.jpg', 'image5_thumb.jpg'] In [43]:
提取a標籤的文本中name後面的內容,這裏提供了正則的方法re和re_first
In [43]: response.css('a::text').re('Name\:(.*)') Out[43]: [' My image 1 ', ' My image 2 ', ' My image 3 ', ' My image 4 ', ' My image 5 '] In [44]: response.css('a::text').re_first('Name\:(.*)') Out[44]: ' My image 1 '