爬蟲基本流程正則表達式
- 發起請求
- 經過HTTP庫向目標服務器發送Request,Request內能夠包含額外的headers信息。
- 獲取響應內容
- 若是服務器正常響應,會返回Response, 裏面包含的就是該頁面的內容。
- 解析數據
- 內容或許是HTML,能夠用正則表達式、網頁解析庫進行解析。
- 或許是Json,能夠直接轉換爲Json對象解析。
- 保存數據
- 能夠存儲爲文本,也能夠保存至數據庫,或其餘特定類型文件。
![小白用Python玩爬蟲,必須瞭解的一個爬蟲流程!(文末附贈教程)](http://static.javashuo.com/static/loading.gif)
Response中包含的內容數據庫
- 響應狀態
- Status Code:200
- 即狀態碼,通常200表示響應成功。
- 響應頭
- Response Headers
- 內容類型,內容長度,服務器信息,設置Cookie等。
- 響應體
- 請求資源的內容,如網頁源代碼,二進制數據等。在學習中有迷茫不知如何學習的朋友小編推薦一個學Python的學習q u n 227 -435- 450能夠來了解一塊兒進步一塊兒學習!免費分享視頻資料
![小白用Python玩爬蟲,必須瞭解的一個爬蟲流程!(文末附贈教程)](http://static.javashuo.com/static/loading.gif)
![小白用Python玩爬蟲,必須瞭解的一個爬蟲流程!(文末附贈教程)](http://static.javashuo.com/static/loading.gif)
通常作網頁請求的時候,能夠先判斷狀態碼是不是200,再取出響應體進行解析。服務器
解析方式學習
- 直接處理
- Json解析
- 正則表達式
- BeautifulSoup
- PyQuery
- XPath
視狀況選擇合適的解析方式。url
保存數據視頻
- 文本保存
- 純文本、Json、Xml等。
- 關係型數據庫保存
- MySQL、Oracle、SQLServer等。
- 非關係型數據庫保存
- MongoDB、Redis等Key-Value形式存儲。
- 二進制文件
- 圖片、視頻、音頻等特定文件。
Urllib庫對象
Python內置的HTTP請求庫blog
模塊說明urllib.request請求模塊urllib.error異常處理模塊urllib.parseurl解析模塊urllib.robotparserrobots.txt解析模塊教程
![小白用Python玩爬蟲,必須瞭解的一個爬蟲流程!(文末附贈教程)](http://static.javashuo.com/static/loading.gif)
![小白用Python玩爬蟲,必須瞭解的一個爬蟲流程!(文末附贈教程)](http://static.javashuo.com/static/loading.gif)
![小白用Python玩爬蟲,必須瞭解的一個爬蟲流程!(文末附贈教程)](http://static.javashuo.com/static/loading.gif)