小白用Python玩爬蟲，必須瞭解的一個爬蟲流程!

時間 2019-12-10

標籤 python 爬蟲必須瞭解一個流程欄目 Python 简体版

原文原文鏈接

爬蟲基本流程正則表達式

發起請求
經過HTTP庫向目標服務器發送Request，Request內能夠包含額外的headers信息。
獲取響應內容
若是服務器正常響應，會返回Response，裏面包含的就是該頁面的內容。
解析數據
內容或許是HTML，能夠用正則表達式、網頁解析庫進行解析。
或許是Json，能夠直接轉換爲Json對象解析。
保存數據
能夠存儲爲文本，也能夠保存至數據庫，或其餘特定類型文件。

Response中包含的內容數據庫

響應狀態
Status Code:200
即狀態碼，通常200表示響應成功。
響應頭
Response Headers
內容類型，內容長度，服務器信息，設置Cookie等。
響應體
請求資源的內容，如網頁源代碼，二進制數據等。在學習中有迷茫不知如何學習的朋友小編推薦一個學Python的學習q u n 227 -435- 450能夠來了解一塊兒進步一塊兒學習！免費分享視頻資料

通常作網頁請求的時候，能夠先判斷狀態碼是不是200，再取出響應體進行解析。服務器

解析方式學習

直接處理
Json解析
正則表達式
BeautifulSoup
PyQuery
XPath

視狀況選擇合適的解析方式。url

保存數據視頻

文本保存
純文本、Json、Xml等。
關係型數據庫保存
MySQL、Oracle、SQLServer等。
非關係型數據庫保存
MongoDB、Redis等Key-Value形式存儲。
二進制文件
圖片、視頻、音頻等特定文件。

Urllib庫對象

Python內置的HTTP請求庫blog

模塊說明urllib.request請求模塊urllib.error異常處理模塊urllib.parseurl解析模塊urllib.robotparserrobots.txt解析模塊教程

相關文章

相關標籤/搜索

爬蟲－反爬蟲

python爬蟲-爬微博

每日一句

每一个你不满意的现在，都有一个你没有努力的曾经。

最新文章

本站公眾號

歡迎關注本站公眾號,獲取更多信息

相關文章

>>更多相關文章<<