第3次做業-MOOC學習筆記：Python網絡爬蟲與信息提取

時間 2019-11-17

標籤 mooc 學習筆記 python 網絡爬蟲信息提取欄目 Python 简体版

原文原文鏈接

1.註冊中國大學MOOChtml

2.選擇北京理工大學嵩天老師的《Python網絡爬蟲與信息提取》MOOC課程java

3.學習完成第0周至第4周的課程內容，並完成各周做業node

4.提供圖片或網站顯示的學習進度，證實學習的過程。python

5.寫一篇很多於1000字的學習筆記，談一下學習的體會和收穫。ajax

咱們這學期學習了Python高級應用課程，而後看了中國慕課網的Python爬蟲課，收穫不少知識。首先，python3的語法必須知道，不過python3並不難，語法也很是簡潔。可是，寫着發現有個毛病，就是好比一個形參，因爲不肯定類型，.沒法像java那樣補全，致使你若是忘了一個函數，必須查看代碼或手冊。。。不過這也是動態語言都有的問題，但好的IDE會幫你記錄，因此使用好的編譯器頗有必要。。哈哈。json

而後是學習python的各類庫，爲了打好基礎，從基礎的庫開始學習會比較好，好比urlib，而後學習requests，這種是用來發請求的。返回的數據又是各類各樣的類型，有html，js，json，字符串等，針對每種格式，固然都須要合適的解析器，固然，正則都能作。。。這裏，解析html用到xpath，beautifulsoup，pyquery等庫，js代碼須要js引擎來運行和分析，例如nodejs，v8，json的解析要用到json庫，字符串就看具體狀況了。服務器

幾款優秀製做爬蟲的輔助工具cookie

因爲我是採用python3.6開發的，而後從上文的介紹中，也該知道了一隻爬蟲是須要從HTML中提取內容，以及須要和網頁作交互等。若是不採用爬蟲框架的話，我建議採用:BeautifulSoup 庫，一款優秀的HTML/XML解析庫，採用來作爬蟲，不用考慮編碼，還有中日韓文的文檔，其社區活躍度之高，可見一斑。[注] 這個在解析的時候須要一個解析器，在文檔中能夠看到，推薦lxmlRequests 庫，一款比較好用的HTTP庫，固然python自帶有urllib以及urllib2等庫，但用起來是絕對沒有這款舒服的，哈哈Fiddler. 工具，這是一個HTTP抓包軟件，可以截獲全部的HTTP通信。若是爬蟲運行不了，能夠從這裏尋找答案，官方連接可能進不去，能夠直接百度下載爬蟲的輔助開發工具還有不少，好比Postman等，這裏只用到了這三個，相信有了這些能減小很多開發阻礙。網絡

其實本質上來講爬蟲就是一段程序代碼。任何程序語言均可以作爬蟲，只是繁簡程度不一樣而已。從定義上來講，爬蟲就是模擬用戶自動瀏覽而且保存網絡數據的程序，固然，大部分的爬蟲都是爬取網頁信息（文本，圖片，媒體流）。可是人家維護網站的人也不是傻的，大量的用戶訪問請求能夠視爲對服務器的攻擊，這時候就要採起一些反爬機制來及時阻止人們的不知道是善意的仍是惡意的大量訪問請求（固然了= =不這樣人家服務器吃棗爆炸）。框架

網站爬取過程當中咱們會碰到如下幾種狀況：直接加載資源無處理、使用ajax異步加載、帶參數驗證的加載、cookie驗證、登陸驗證、js加密。