第3次做業-MOOC學習筆記:PYTHON網絡爬蟲與信息提取

1.註冊中國大學MOOChtml

2.選擇北京理工大學嵩天老師的《Python網絡爬蟲與信息提取》MOOC課程html5

 

 3.學習完成第0周至第4周的課程內容,並完成各周做業程序員

 

 

 

 

4.提供圖片或網站顯示的學習進度,證實學習的過程。算法

 

5.寫一篇很多於1000字的學習筆記,談一下學習的體會和收穫。編程

在中國大學MOOC(慕課)網站上參與了Python網絡爬蟲與信息提取的課程學習,認真完成了課程第0到第4周的總計18課時的所有內容網絡

隨着機器學習、人工智能在互聯網行業中的大熱,算法領域程序員薪資的水廠船高,Python逐漸成爲一門明星編程語言。Python編程語言以其簡潔的語法特色、清晰的代數邏輯,以及海量的第三方庫而著稱。所謂人生苦短,我用Python,愈來愈多的人開始投入學習。聽說,部分地區的小學生信息課程甚至也加入了Python。實在是大勢所趨,勢不可擋。機器學習

 使用Python能夠很方便地編寫出爬蟲程序,進行網絡信息的自動化檢索。當咱們研究爬蟲的時候,不只要了解爬蟲如何實現,還須要掌握一些常見爬蟲的算法,若是有必要,咱們要有能力本身去制定相應的算法。編程語言

 

第一週的時候我學習到關於requests庫的7種主要方法:
  一、requests.requests( )  
  二、requests.get() 
  三、requests.head( )  
  四、requests.post()
  五、requests.put()  
  六、requests.patch() 
  七、requests.delete( )。post


  第二週的時候我學習到新的庫—Beautiful soup庫,用來格式化爬取下來的網頁數據,hmtl標籤樹的格式化。有益於咱們對爬取數據進行直觀,簡潔的分析。學習

  第三週的時候我學習到了Beautiful Soup庫解析器,有如下幾種:(1)bs4的HTML解析器(2)lxml的HTML解析器(3)lxml的XML解析器(4)html5liblxml的解析器  第四周的時候我學習到了BeautifulSoup類的基本元素,有如下幾種:(1)Tag:標籤,最基本的信息組織單元,分別用<>和</>標明開頭和結尾標籤(2)Name:標籤的名字, <>...</p>的名字是'p' ,格式: <tag> . name :(3)Attributes:標籤的屬性, 字典形式組織,格式: <tag>. attrs(4)NavigableString: 標籤內非屬性字符串,<..</>中字符串,格式: <tag>.string(5)Comment: 標籤內字符串的註釋部分, 一種特殊的Comment類型

相關文章
相關標籤/搜索