Python網絡爬蟲項目:使用requests獲取網頁,經過BeautifulSoup提取數據

本次講解經過requests獲取某一個網站,網址:http://www.gxccedu.com/sp2017/zli/index.htmlhtml

而後使用正則表達式提取頁面中的「專利名稱」。正則表達式

步驟:數組

一、使用pycharm新建項目,新建的時候記得勾選「Inherit global site-packages」不然可能找不到requests類庫網站

二、編寫代碼,咱們看到網頁上的數據量是101行,以下所示:spa

代碼以下:3d

項目結構(不重要):htm

程序代碼:對象

Beautiful Soup能夠將HTML文檔轉換爲Tag樹形結構,若是BeautifulSoup對象是soup,則咱們能夠經過soup.td獲取頁面裏面的第一個td元素,經過soup.find_all('td')獲取全部的td元素。也就是find_all()返回來的是一個數組元素,那麼咱們能夠經過下標來獲取對應的內容,以下:blog

咱們能夠看到,第一個專利的名稱的下標是7,第二個是13,第三個是19,依次類推,因此咱們能夠經過間隔獲取的方式來達到效果。文檔

代碼以下,另外要記得最後獲取的是text屬性,不然獲取的就是是<td>XXX</td>的內容:

運行效果:

相關文章
相關標籤/搜索