第3次做業-MOOC學習筆記：PYTHON網絡爬蟲與信息提取

時間 2019-11-30

標籤 mooc 學習筆記 python 網絡爬蟲信息提取欄目 Python 简体版

原文原文鏈接

1.註冊中國大學MOOChtml

2.選擇北京理工大學嵩天老師的《Python網絡爬蟲與信息提取》MOOC課程html5

3.學習完成第0周至第4周的課程內容，並完成各周做業程序員

4.提供圖片或網站顯示的學習進度，證實學習的過程。算法

5.寫一篇很多於1000字的學習筆記，談一下學習的體會和收穫。編程

在中國大學MOOC（慕課）網站上參與了Python網絡爬蟲與信息提取的課程學習，認真完成了課程第0到第4周的總計18課時的所有內容網絡

隨着機器學習、人工智能在互聯網行業中的大熱，算法領域程序員薪資的水廠船高，Python逐漸成爲一門明星編程語言。Python編程語言以其簡潔的語法特色、清晰的代數邏輯，以及海量的第三方庫而著稱。所謂人生苦短，我用Python，愈來愈多的人開始投入學習。聽說，部分地區的小學生信息課程甚至也加入了Python。實在是大勢所趨，勢不可擋。機器學習

使用Python能夠很方便地編寫出爬蟲程序，進行網絡信息的自動化檢索。當咱們研究爬蟲的時候，不只要了解爬蟲如何實現，還須要掌握一些常見爬蟲的算法，若是有必要，咱們要有能力本身去制定相應的算法。編程語言

第一週的時候我學習到關於requests庫的7種主要方法：
一、requests.requests( )
二、requests.get()
三、requests.head( )
四、requests.post()
五、requests.put()
六、requests.patch()
七、requests.delete( )。post

第二週的時候我學習到新的庫—Beautiful soup庫，用來格式化爬取下來的網頁數據，hmtl標籤樹的格式化。有益於咱們對爬取數據進行直觀，簡潔的分析。學習

第三週的時候我學習到了Beautiful Soup庫解析器，有如下幾種：（1）bs4的HTML解析器（2）lxml的HTML解析器（3）lxml的XML解析器（4）html5liblxml的解析器第四周的時候我學習到了BeautifulSoup類的基本元素，有如下幾種：（1）Tag：標籤，最基本的信息組織單元,分別用<>和</>標明開頭和結尾標籤（2）Name：標籤的名字, <>...</p>的名字是'p' ,格式: <tag> . name :（3）Attributes：標籤的屬性, 字典形式組織,格式: <tag>. attrs（4）NavigableString：標籤內非屬性字符串，<..</>中字符串,格式: <tag>.string（5）Comment：標籤內字符串的註釋部分, 一種特殊的Comment類型