1.註冊中國大學MOOChtml
2.選擇北京理工大學嵩天老師的《Python網絡爬蟲與信息提取》MOOC課程html5
3.學習完成第0周至第4周的課程內容,並完成各周做業程序員
4.提供圖片或網站顯示的學習進度,證實學習的過程。正則表達式
5.寫一篇很多於1000字的學習筆記,談一下學習的體會和收穫。算法
隨着機器學習、人工智能在互聯網行業中的大熱,算法領域程序員薪資的水廠船高,Python逐漸成爲一門明星編程語言。Python編程語言以其簡潔的語法特色、清晰的代數邏輯,以及海量的第三方庫而著稱。所謂人生苦短,我用Python,愈來愈多的人開始投入學習。聽說,部分地區的小學生信息課程甚至也加入了Python。實在是大勢所趨,勢不可擋。編程
第一週的時候我學習到關於requests庫的7種主要方法:
一、requests.requests( )
二、requests.get()
三、requests.head( )
四、requests.post()
五、requests.put()
六、requests.patch()
七、requests.delete( )。網絡
第二週的時候我學習到新的庫—Beautiful soup庫,用來格式化爬取下來的網頁數據,hmtl標籤樹的格式化。有益於咱們對爬取數據進行直觀,簡潔的分析。機器學習
第三週的時候我學習到了Beautiful Soup庫解析器,有如下幾種:
(1)bs4的HTML解析器
(2)lxml的HTML解析器
(3)lxml的XML解析器
(4)html5liblxml的解析器
第四周的時候我學習到了BeautifulSoup類的基本元素,有如下幾種:
(1)Tag:標籤,最基本的信息組織單元,分別用<>和</>標明開頭和結尾標籤
(2)Name:標籤的名字, <>...</p>的名字是'p' ,格式: <tag> . name :
(3)Attributes:標籤的屬性, 字典形式組織,格式: <tag>. attrs
(4)NavigableString: 標籤內非屬性字符串,<..</>中字符串,格式: <tag>.string
(5)Comment: 標籤內字符串的註釋部分, 一種特殊的Comment類型編程語言
Scrapy爬蟲基本使用,更重要的是對股票數據sceapy爬蟲實例的過程分析。通過這幾周的學習,讓我深入的體會到了網絡爬蟲給咱們帶來便利的同時,在沒有恰當使用的狀況下也能夠致使整個網絡的崩潰,因此說無論是是什麼東西咱們都要把其優點發揮到最大,同時儘量的減小沒必要要的麻煩。就是要在逐漸學習深刻過程當中,瞭解、理解、掌握正則表達式這是很是強大的東西,在不少語言中都會遇到這個東西,對提取想要的內容很是有幫助post