本身動手，豐衣足食！Python3網絡爬蟲實戰案例

時間 2019-12-05

標籤本身動手豐衣足食 python3 python 網絡爬蟲實戰案例欄目 Python 简体版

原文原文鏈接

本教程是崔大大的爬蟲實戰教程的筆記：網易雲課堂html

Python3+Pip環境配置

Windows下安裝Python: http://www.cnblogs.com/0bug/p/8228378.html正則表達式

Linux以Ubuntu爲例，通常是自帶的，只需配置一下默認版本：http://www.cnblogs.com/0bug/p/8598273.htmlmongodb

virtualenv的安裝：http://www.cnblogs.com/0bug/p/8598458.html數據庫

用到的IDE是PyCharm，Windows下到官網下載就行（Professional版本）：http://www.jetbrains.com/pycharm/download/瀏覽器

Linux下以Ubuntu爲例：http://www.cnblogs.com/0bug/p/8598673.html服務器

Pycharm須要花錢，建議花錢買正版。網站

Mac我就不寫了，由於我沒有Mac視頻

MongoDB環境配置

Windows下安裝和配置：http://www.cnblogs.com/0bug/p/8290330.htmlhtm

Linux以Ubuntu爲例：sudo apt-get install mongodbblog

Redis環境配置

Windows&Ubuntu：http://www.cnblogs.com/0bug/p/8892711.html

MySQL環境配置

Windows&Ubuntu:http://www.cnblogs.com/0bug/p/8655363.html

爬蟲的基本原理

什麼是爬蟲？

爬蟲就是請求網站並提取數據的自動化程序

爬蟲的基本流程

1.發起請求

2.解析請求

3.獲取相應內容

4.保存數據

什麼是Request和Response?

好比咱們在瀏覽器中輸入一個網址

瀏覽器就會發送消息給該網址所在的服務器，這個過程就叫作HTTP Request

服務器收到瀏覽器發送的消息後，可以根據瀏覽器發送消息的內容，作相應處理，而後把消息回傳給瀏覽器。這個過程叫作HTTP Response

瀏覽器收到服務器的Response信息後，會對信息進行相應的處理，而後展現。

Request中包含什麼？

1.請求方式：

主要有GET、POST兩種類型，另外還有HEAD、PUT、DELETE、OPTIONS等。

HTTP協議中GET和POST方法的區別:http://www.cnblogs.com/0bug/p/8892959.html

2.請求URL

3.請求頭如User-Agent、Host、Cookies等

HTTP協議中中常見請求頭信息：http://www.cnblogs.com/0bug/p/8893038.html#_label1

4.請求體

Responst中包含什麼？

1.響應狀態

有多種響應狀態如200表明成功，301表明跳轉，404表明找不到頁面，502表明服務器錯誤

2.響應頭

如內容類型，內容長度，服務器消息，設置Cookie等等

3.響應體

主要的部分，包含了請求資源的內容，如網頁HTML、圖片二進制數據等。

能抓取怎樣的數據？

1.網頁文本：如HTML文檔，Json格式文本等

2.圖片：獲取的是二進制文件，另存爲圖片格式

3.視頻：同爲二進制文件，保持爲視頻格式便可

4.其餘：只有能請求，都能獲取

解析方式

1.直接處理

2.Json解析

3.正則表達式

4.BeautifulSoup

5.PyQuery

6.Xpath

7.其餘

怎樣解決JavaScript渲染的問題

1.分析Ajax請求

2.Selenium/WebDriver

3.Splash

4.PyV八、Fhost.py

怎樣保存數據

1.文本：純文本、Json、Xml等

2.關係型數據庫：如MySQL、Oracle、SQL Server等具備結構化表結構形式的存儲

3.非關係型數據庫：如MongoDB、Redis等Key-Value形式存儲

4.二進制文件：如圖片、視頻、音頻等等直接保存成特定格式便可

Urllib庫基本使用

Ullib的基本使用：http://www.cnblogs.com/0bug/p/8893677.html

Requests庫的基本使用

reuqests庫的基本用法：http://www.cnblogs.com/0bug/p/8899841.html

正則表達式與re模塊

正則表達式與re模塊：http://www.cnblogs.com/0bug/p/8272233.html

BeautifulSoup庫詳解

Beautiful Soup庫基礎用法：http://www.cnblogs.com/0bug/p/8260834.html

PyQuery詳解

PyQuery：http://www.cnblogs.com/0bug/p/8276717.html

Selenium詳解

Selenium基礎用法：http://www.cnblogs.com/0bug/p/8270552.html

Requests+正則表達式爬取貓眼電影

Requests+正則表達式爬取貓眼電影：http://www.cnblogs.com/0bug/p/8906490.html

相關標籤/搜索

每日一句

每一个你不满意的现在，都有一个你没有努力的曾经。