第3次做業-MOOC學習筆記:Python網絡爬蟲與信息提取

1.註冊中國大學MOOChtml

2.選擇北京理工大學嵩天老師的《Python網絡爬蟲與信息提取》MOOC課html5

3.學習完成第0周至第4周的課程內容,並完成各周做業python

4.提供圖片或網站顯示的學習進度,證實學習的過程。正則表達式

5.寫一篇很多於1000字的學習筆記,談一下學習的體會和收穫。安全

在這兩週的時間裏,我學習了Python網絡爬蟲與信息提取這門課程,不得不說,這和我之前學習到的python有很大區別,它生動的講解了爬蟲的做用,讓我感受網絡爬蟲的做用真的很是大,越學習越感受如此有用,首先python就是一門很是優雅的語言,它能作的事情很是之多,比起其餘語言,也很是簡練,它特有的爬蟲功能,也是十分的出彩,它甚至能夠爬出許多隱私的數據,固然,這都是不被法律所容許的,在學習網絡爬蟲的同時,咱們也要了解爬蟲的協議,作到文明使用爬蟲,安全爬取數據。網絡

在第一週的課程學習中,我學習到了爬蟲最基礎的一個庫: request  ,這是一個很是有用的庫,也有不少的功能,對於異常的處理十分簡潔,他的最大做用就是使用起來簡介方便,程序編寫過程更接近正常URL訪問過程,能夠說request庫就是基礎中的基礎,學好這個庫,纔算進入了爬蟲的基礎學習,還有,必需要遵照爬蟲的協議,這樣才能更加安全使用爬蟲技術,給咱們生活帶來方便。併發

第二週的課程中,我學習到的是BeautifulSoup庫的使用方法,這個庫又叫「 美味的湯 」 它經過解析HTML標籤來格式化和組織複雜的網頁信息,用簡單的python對象爲使用者展示xml結構信息。使用這個庫時,給個人感覺是很是震驚的,它能夠直接爬取網站的HTML代碼,這很是的神奇,同時,它能夠爬取淘寶中的產品信息,這很是有趣。同時,我知道了Beautiful Soup庫是解析、遍歷、維護「標籤樹的功能。它有四種解析器:bs4的HTML解析器、lxml的HTML解析器、lxml的XML解析器、html5lib的解析器。python爬蟲

第三週的課程,是網絡爬蟲的實戰運用,剛開始,我很是迷惑,不知到該如何下手去作這個案例,我跟着老師的視頻一步一步來,可是仍是一直出錯,正則表達式我一直不太清楚他的原理,這使我很是沮喪,接下來我結合課本和視頻,纔有所瞭解了這幾個案例,慢慢的去實現了這幾個案例,看來光看懂是不行的,還要加入本身的瞭解才行,紙上得來終覺淺,絕知此事要躬行,這纔是寫案例的真實寫照。框架

最後一週,我學習到了爬蟲的框架,所謂框架,就是scrapy框架命令,是一個「5+2」的結構,在這個視頻中,學習到了框架的代碼命令,瞭解了scrapy爬蟲框架結構,同時對比了request與scrapy的區別scrapy

Scrapy的併發性好,開發性能較高,重點在於爬蟲結構,通常定製靈活,深度定製困難,並且入門有難度,因此對於不一樣的開發就要使用不一樣的開發路線,需求很是小時,使用request就能夠了,需求比較大時,就須要使用scrapy來做爲開發。完整配置並實現Scrapy爬蟲的主要過程:1.創建工程和Spider模板;2.編寫Spider;3.編寫Pipeline:處理spider提取信息的後續的功能;4.配置優化:使得爬蟲運行的更好。並着重詳述了yield關鍵字的使用,使用yield能夠更節省存儲空間,響應更加迅速,使用更加靈活。

通過這幾天的學習,我只是大體瞭解了python爬蟲的使用規則,作到能本身寫爬蟲的能力還有所距離,不過,這就是無止境的學習吧,學無止盡,只有不斷的去學習,才能爲這個新時代所接受吧,同時做爲網絡爬蟲這門課,對我之後的工做上,也是會有不小的提高,這對我來講,也是一次很是成功的體驗。

相關文章
相關標籤/搜索