第3次做業-MOOC學習筆記:Python網絡爬蟲與信息提取

1.註冊中國大學MOOChtml

2.選擇北京理工大學嵩天老師的《Python網絡爬蟲與信息提取》MOOC課程html5

3.學習完成第0周至第4周的課程內容,並完成各周做業程序員

4.提供圖片或網站顯示的學習進度,證實學習的過程。正則表達式

5.寫一篇很多於1000字的學習筆記,談一下學習的體會和收穫。算法

隨着機器學習、人工智能在互聯網行業中的大熱,算法領域程序員薪資的水廠船高,Python逐漸成爲一門明星編程語言。Python編程語言以其簡潔的語法特色、清晰的代數邏輯,以及海量的第三方庫而著稱。所謂人生苦短,我用Python,愈來愈多的人開始投入學習。聽說,部分地區的小學生信息課程甚至也加入了Python。實在是大勢所趨,勢不可擋。編程

第一週的時候我學習到關於requests庫的7種主要方法:
  一、requests.requests( )  
  二、requests.get() 
  三、requests.head( )  
  四、requests.post()
  五、requests.put()  
  六、requests.patch() 
  七、requests.delete( )。網絡


  第二週的時候我學習到新的庫—Beautiful soup庫,用來格式化爬取下來的網頁數據,hmtl標籤樹的格式化。有益於咱們對爬取數據進行直觀,簡潔的分析。機器學習


  第三週的時候我學習到了Beautiful Soup庫解析器,有如下幾種:

(1)bs4的HTML解析器

(2)lxml的HTML解析器

(3)lxml的XML解析器

(4)html5liblxml的解析器

  第四周的時候我學習到了BeautifulSoup類的基本元素,有如下幾種:

(1)Tag:標籤,最基本的信息組織單元,分別用<>和</>標明開頭和結尾標籤

(2)Name:標籤的名字, <>...</p>的名字是'p' ,格式: <tag> . name :

(3)Attributes:標籤的屬性, 字典形式組織,格式: <tag>. attrs

(4)NavigableString: 標籤內非屬性字符串,<..</>中字符串,格式: <tag>.string

(5)Comment: 標籤內字符串的註釋部分, 一種特殊的Comment類型編程語言

Scrapy爬蟲基本使用,更重要的是對股票數據sceapy爬蟲實例的過程分析。通過這幾周的學習,讓我深入的體會到了網絡爬蟲給咱們帶來便利的同時,在沒有恰當使用的狀況下也能夠致使整個網絡的崩潰,因此說無論是是什麼東西咱們都要把其優點發揮到最大,同時儘量的減小沒必要要的麻煩。就是要在逐漸學習深刻過程當中,瞭解、理解、掌握正則表達式這是很是強大的東西,在不少語言中都會遇到這個東西,對提取想要的內容很是有幫助post

相關文章
相關標籤/搜索