Python網絡爬蟲項目:使用requests獲取網頁,經過xpath提取數據

本次講解經過requests獲取某一個網站,網址:http://www.gxccedu.com/sp2017/zli/index.html
而後使用xpath提取頁面中的「專利名稱」。html

步驟:瀏覽器

一、使用pycharm新建項目,新建的時候記得勾選「Inherit global site-packages」不然可能找不到requests類庫post

二、編寫代碼,咱們看到網頁上的數據量是101行,以下所示:網站

代碼以下:spa

項目結構(不重要):htm

程序代碼:blog

首先咱們要分析網頁的源碼,在瀏覽器按F12能夠查看到源碼,把源碼全選複製到一個pycharm新建的HTML文檔,能夠看到對應的樹形結構。文檔

咱們能夠看到,在左邊的編輯框這裏,凡有「-」號的,都是在樹形結構內的。由此咱們能夠知道,若是想要獲取到td,則完整的樹形結構是:pycharm

html-body-div-table-tr-td源碼

可是tr是多個的,而且第一個是表頭,因此第一個不是咱們想要的,因此咱們要對第一個的表頭拋棄掉。

另外td也是多個的,而且咱們只須要每一個tr裏面的第二個td,因此咱們能夠採用下標的方式來獲取。

最終完整的樹形結構是:/html/body/div/table/tr[postion()>1]/td[2]

因此,代碼以下:

 

最後,運行結果:

相關文章
相關標籤/搜索