第3次做業-MOOC學習筆記：Python網絡爬蟲與信息提取

時間 2019-11-16

標籤 mooc 學習筆記 python 網絡爬蟲信息提取欄目 Python 简体版

原文原文鏈接

1.註冊中國大學MOOChtml

2.選擇北京理工大學嵩天老師的《Python網絡爬蟲與信息提取》MOOC課html5

3.學習完成第0周至第4周的課程內容，並完成各周做業python

4.提供圖片或網站顯示的學習進度，證實學習的過程。正則表達式

5.寫一篇很多於1000字的學習筆記，談一下學習的體會和收穫。安全

在這兩週的時間裏，我學習了Python網絡爬蟲與信息提取這門課程，不得不說，這和我之前學習到的python有很大區別，它生動的講解了爬蟲的做用，讓我感受網絡爬蟲的做用真的很是大，越學習越感受如此有用，首先python就是一門很是優雅的語言，它能作的事情很是之多，比起其餘語言，也很是簡練，它特有的爬蟲功能，也是十分的出彩，它甚至能夠爬出許多隱私的數據，固然，這都是不被法律所容許的，在學習網絡爬蟲的同時，咱們也要了解爬蟲的協議，作到文明使用爬蟲，安全爬取數據。網絡

在第一週的課程學習中，我學習到了爬蟲最基礎的一個庫： request ，這是一個很是有用的庫，也有不少的功能，對於異常的處理十分簡潔，他的最大做用就是使用起來簡介方便，程序編寫過程更接近正常URL訪問過程，能夠說request庫就是基礎中的基礎，學好這個庫，纔算進入了爬蟲的基礎學習，還有，必需要遵照爬蟲的協議，這樣才能更加安全使用爬蟲技術，給咱們生活帶來方便。併發

第二週的課程中，我學習到的是BeautifulSoup庫的使用方法，這個庫又叫「美味的湯」它經過解析HTML標籤來格式化和組織複雜的網頁信息，用簡單的python對象爲使用者展示xml結構信息。使用這個庫時，給個人感覺是很是震驚的，它能夠直接爬取網站的HTML代碼，這很是的神奇，同時，它能夠爬取淘寶中的產品信息，這很是有趣。同時，我知道了Beautiful Soup庫是解析、遍歷、維護「標籤樹的功能。它有四種解析器：bs4的HTML解析器、lxml的HTML解析器、lxml的XML解析器、html5lib的解析器。python爬蟲

第三週的課程，是網絡爬蟲的實戰運用，剛開始，我很是迷惑，不知到該如何下手去作這個案例，我跟着老師的視頻一步一步來，可是仍是一直出錯，正則表達式我一直不太清楚他的原理，這使我很是沮喪，接下來我結合課本和視頻，纔有所瞭解了這幾個案例，慢慢的去實現了這幾個案例，看來光看懂是不行的，還要加入本身的瞭解才行，紙上得來終覺淺，絕知此事要躬行，這纔是寫案例的真實寫照。框架

最後一週，我學習到了爬蟲的框架，所謂框架，就是scrapy框架命令，是一個「5+2」的結構，在這個視頻中，學習到了框架的代碼命令，瞭解了scrapy爬蟲框架結構，同時對比了request與scrapy的區別scrapy

Scrapy的併發性好，開發性能較高，重點在於爬蟲結構，通常定製靈活，深度定製困難，並且入門有難度，因此對於不一樣的開發就要使用不一樣的開發路線，需求很是小時，使用request就能夠了，需求比較大時，就須要使用scrapy來做爲開發。完整配置並實現Scrapy爬蟲的主要過程：1.創建工程和Spider模板；2.編寫Spider；3.編寫Pipeline：處理spider提取信息的後續的功能；4.配置優化：使得爬蟲運行的更好。並着重詳述了yield關鍵字的使用，使用yield能夠更節省存儲空間，響應更加迅速，使用更加靈活。

通過這幾天的學習，我只是大體瞭解了python爬蟲的使用規則，作到能本身寫爬蟲的能力還有所距離，不過，這就是無止境的學習吧，學無止盡，只有不斷的去學習，才能爲這個新時代所接受吧，同時做爲網絡爬蟲這門課，對我之後的工做上，也是會有不小的提高，這對我來講，也是一次很是成功的體驗。