Python網絡爬蟲項目：使用requests獲取網頁，經過BeautifulSoup提取數據

時間 2020-07-26

標籤 python 網絡爬蟲項目使用 requests 獲取網頁經過 beautifulsoup 提取數據欄目 Python 简体版

原文原文鏈接

本次講解經過requests獲取某一個網站，網址：http://www.gxccedu.com/sp2017/zli/index.htmlhtml

而後使用正則表達式提取頁面中的「專利名稱」。正則表達式

步驟：數組

一、使用pycharm新建項目，新建的時候記得勾選「Inherit global site-packages」不然可能找不到requests類庫網站

二、編寫代碼，咱們看到網頁上的數據量是101行，以下所示：spa

代碼以下：3d

項目結構（不重要）：htm

程序代碼：對象

Beautiful Soup能夠將HTML文檔轉換爲Tag樹形結構，若是BeautifulSoup對象是soup,則咱們能夠經過soup.td獲取頁面裏面的第一個td元素，經過soup.find_all('td')獲取全部的td元素。也就是find_all()返回來的是一個數組元素，那麼咱們能夠經過下標來獲取對應的內容，以下：blog

咱們能夠看到，第一個專利的名稱的下標是7，第二個是13，第三個是19，依次類推，因此咱們能夠經過間隔獲取的方式來達到效果。文檔

代碼以下，另外要記得最後獲取的是text屬性，不然獲取的就是是<td>XXX</td>的內容：

運行效果：