第3次做業-MOOC學習筆記：Python網絡爬蟲與信息提取

時間 2019-11-22

標籤 mooc 學習筆記 python 網絡爬蟲信息提取欄目 Python 简体版

原文原文鏈接

1.註冊中國大學MOOCpython

2.選擇北京理工大學嵩天老師的《Python網絡爬蟲與信息提取》MOOC課程正則表達式

3.學習完成第0周至第4周的課程內容，並完成各周做業服務器

4.提供圖片或網站顯示的學習進度，證實學習的過程。網絡

5.寫一篇很多於1000字的學習筆記，談一下學習的體會和收穫。併發

大三剛接觸到python這門課的時候，就瞭解到網絡爬蟲，是一種按照必定的規則，自動地抓取萬維網信息的程序或者腳本，被普遍用於互聯網搜索引擎，能夠自動採集全部其可以訪問到的頁面內容，以獲取或更新這些網站的內容和檢索方式。但我對它的認識僅僅停留在概念層面。此次經過老師的推薦，學習了《Python網絡爬蟲與信息提取》這門網絡課程，讓我體會到了python第三方庫的強大，也讓我對網絡爬蟲有了更深的認識。框架

在網絡爬蟲之規則中，瞭解了Requests庫的七個主要方法，Request庫的異常處理很重要，利用通用代碼框架，來處理網絡鏈接的風險。網絡爬蟲會爲Web服務器帶來巨大的資源開銷，若是得到被保護的數據，可能泄露我的隱私，服務器上的數據有產權歸屬，獲取數據後牟利會帶來法律風險，因此咱們要合理利用網絡爬蟲，遵照Robots協議。函數

在網絡爬蟲之提取中，Beautiful Soup庫是解析、遍歷、維護「標籤樹」的功能庫，bs4提供了5種基本元素和3種遍歷功能。標記後的信息可造成信息組織結構，增長信息維度，可用於用於通訊、存儲，更利於程序的理解和運用。信息標記有XML、JSON、YAML三種形式,。介紹了信息提取的通常方法：1.完整解析信息的標記形式，在提取關鍵信息。2.無視標記形式，直接搜索關鍵信息。融合方法：結合形式解析與搜索方法，提取關鍵信息。性能

在網絡爬蟲之實戰中，學習了正則表達式，是用來簡潔表達一組字符串的表達式。認識了正則表達式的經常使用操做符。Re庫是python的標準庫，主要用於字符串匹配。Re庫的函數調用有兩種方式，一種是直接加上方法名調用，還有一種是先將函數編譯成正則表達式對象，再用正則表達式對象調用函數。Re庫的Match對象，是一次匹配的結果，包含匹配的不少信息。學習

在網絡爬蟲之框架中，認識到爬蟲框架是實現爬蟲功能的一個軟件結構和功能組件集合，爬蟲框架是一個半成品，可以幫助用戶實現專業文理爬蟲，包括了「5+2」結構。學習到了Scrapy命令行的使用。Scrapy與requests比較，Scrapy是網站級爬蟲，併發性好，性能較高，重點在於爬蟲結構，但入門稍難。網站

在嵩天老師的講解帶領下，我知道了爬蟲的概念，在一次次的實例練習中，我慢慢地掌握了簡掌握了簡單定向網絡數據爬取和網頁解析的基本能力。雖然有源代碼能夠參考，但在實際練習中，仍是遇到了不少問題，經過檢查，發現大多數問題是由於本身的粗心形成的。這四周的課程學習下來，發現本身掌握的知識實在是太少了，學過得知識也掌握的不牢固。在接下的學習中，我要不斷的溫故而知新，不能只看一遍視頻就結束了學習，要增強實踐。遇到不會的知識點，也不能逃避問題，要及時百度解決問題。