第3次做業-MOOC學習筆記：Python網絡爬蟲與信息提取

時間 2019-11-30

標籤 mooc 學習筆記 python 網絡爬蟲信息提取欄目 Python 简体版

原文原文鏈接

1.註冊中國大學MOOChtml

2.選擇北京理工大學嵩天老師的《Python網絡爬蟲與信息提取》MOOC課程html5

3.學習完成第0周至第4周的課程內容，並完成各周做業程序員

4.提供圖片或網站顯示的學習進度，證實學習的過程。正則表達式

5.寫一篇很多於1000字的學習筆記，談一下學習的體會和收穫。算法

隨着機器學習、人工智能在互聯網行業中的大熱，算法領域程序員薪資的水廠船高，Python逐漸成爲一門明星編程語言。Python編程語言以其簡潔的語法特色、清晰的代數邏輯，以及海量的第三方庫而著稱。所謂人生苦短，我用Python，愈來愈多的人開始投入學習。聽說，部分地區的小學生信息課程甚至也加入了Python。實在是大勢所趨，勢不可擋。編程

第一週的時候我學習到關於requests庫的7種主要方法：
一、requests.requests( )
二、requests.get()
三、requests.head( )
四、requests.post()
五、requests.put()
六、requests.patch()
七、requests.delete( )。網絡

第二週的時候我學習到新的庫—Beautiful soup庫，用來格式化爬取下來的網頁數據，hmtl標籤樹的格式化。有益於咱們對爬取數據進行直觀，簡潔的分析。機器學習

第三週的時候我學習到了Beautiful Soup庫解析器，有如下幾種：

（1）bs4的HTML解析器

（2）lxml的HTML解析器

（3）lxml的XML解析器

（4）html5liblxml的解析器

第四周的時候我學習到了BeautifulSoup類的基本元素，有如下幾種：

（1）Tag：標籤，最基本的信息組織單元,分別用<>和</>標明開頭和結尾標籤

（2）Name：標籤的名字, <>...</p>的名字是'p' ,格式: <tag> . name :

（3）Attributes：標籤的屬性, 字典形式組織,格式: <tag>. attrs

（4）NavigableString：標籤內非屬性字符串，<..</>中字符串,格式: <tag>.string

（5）Comment：標籤內字符串的註釋部分, 一種特殊的Comment類型編程語言

Scrapy爬蟲基本使用，更重要的是對股票數據sceapy爬蟲實例的過程分析。通過這幾周的學習，讓我深入的體會到了網絡爬蟲給咱們帶來便利的同時，在沒有恰當使用的狀況下也能夠致使整個網絡的崩潰，因此說無論是是什麼東西咱們都要把其優點發揮到最大，同時儘量的減小沒必要要的麻煩。就是要在逐漸學習深刻過程當中，瞭解、理解、掌握正則表達式這是很是強大的東西，在不少語言中都會遇到這個東西，對提取想要的內容很是有幫助post