本次講解經過requests獲取某一個網站,網址:http://www.gxccedu.com/sp2017/zli/index.htmlhtml
而後使用正則表達式提取頁面中的「專利名稱」。正則表達式
步驟:數組
一、使用pycharm新建項目,新建的時候記得勾選「Inherit global site-packages」不然可能找不到requests類庫網站
二、編寫代碼,咱們看到網頁上的數據量是101行,以下所示:spa
代碼以下:3d
項目結構(不重要):htm
程序代碼:對象
Beautiful Soup能夠將HTML文檔轉換爲Tag樹形結構,若是BeautifulSoup對象是soup,則咱們能夠經過soup.td獲取頁面裏面的第一個td元素,經過soup.find_all('td')獲取全部的td元素。也就是find_all()返回來的是一個數組元素,那麼咱們能夠經過下標來獲取對應的內容,以下:blog
咱們能夠看到,第一個專利的名稱的下標是7,第二個是13,第三個是19,依次類推,因此咱們能夠經過間隔獲取的方式來達到效果。文檔
代碼以下,另外要記得最後獲取的是text屬性,不然獲取的就是是<td>XXX</td>的內容:
運行效果: