Python網絡爬蟲項目：使用requests獲取網頁，經過xpath提取數據

時間 2020-07-26

標籤 python 網絡爬蟲項目使用 requests 獲取網頁經過 xpath 提取數據欄目 Python 简体版

原文原文鏈接

本次講解經過requests獲取某一個網站，網址：http://www.gxccedu.com/sp2017/zli/index.html
而後使用xpath提取頁面中的「專利名稱」。html

步驟：瀏覽器

一、使用pycharm新建項目，新建的時候記得勾選「Inherit global site-packages」不然可能找不到requests類庫post

二、編寫代碼，咱們看到網頁上的數據量是101行，以下所示：網站

代碼以下：spa

項目結構（不重要）：htm

程序代碼：blog

首先咱們要分析網頁的源碼，在瀏覽器按F12能夠查看到源碼，把源碼全選複製到一個pycharm新建的HTML文檔，能夠看到對應的樹形結構。文檔

咱們能夠看到，在左邊的編輯框這裏，凡有「-」號的，都是在樹形結構內的。由此咱們能夠知道，若是想要獲取到td，則完整的樹形結構是：pycharm

html-body-div-table-tr-td源碼

可是tr是多個的，而且第一個是表頭，因此第一個不是咱們想要的，因此咱們要對第一個的表頭拋棄掉。

另外td也是多個的，而且咱們只須要每一個tr裏面的第二個td，因此咱們能夠採用下標的方式來獲取。

最終完整的樹形結構是：/html/body/div/table/tr[postion()>1]/td[2]

因此，代碼以下：

最後，運行結果：

相關標籤/搜索