小白用Python玩爬蟲,必須瞭解的一個爬蟲流程!

爬蟲基本流程正則表達式

  • 發起請求
  • 經過HTTP庫向目標服務器發送Request,Request內能夠包含額外的headers信息。
  • 獲取響應內容
  • 若是服務器正常響應,會返回Response, 裏面包含的就是該頁面的內容。
  • 解析數據
  • 內容或許是HTML,能夠用正則表達式、網頁解析庫進行解析。
  • 或許是Json,能夠直接轉換爲Json對象解析。
  • 保存數據
  • 能夠存儲爲文本,也能夠保存至數據庫,或其餘特定類型文件。

小白用Python玩爬蟲,必須瞭解的一個爬蟲流程!(文末附贈教程)

 

Response中包含的內容數據庫

  • 響應狀態
  • Status Code:200
  • 即狀態碼,通常200表示響應成功。
  • 響應頭
  • Response Headers
  • 內容類型,內容長度,服務器信息,設置Cookie等。
  • 響應體
  • 請求資源的內容,如網頁源代碼,二進制數據等。在學習中有迷茫不知如何學習的朋友小編推薦一個學Python的學習q u n 227  -435-  450能夠來了解一塊兒進步一塊兒學習!免費分享視頻資料

小白用Python玩爬蟲,必須瞭解的一個爬蟲流程!(文末附贈教程)

 

小白用Python玩爬蟲,必須瞭解的一個爬蟲流程!(文末附贈教程)

 

通常作網頁請求的時候,能夠先判斷狀態碼是不是200,再取出響應體進行解析。服務器

解析方式學習

  • 直接處理
  • Json解析
  • 正則表達式
  • BeautifulSoup
  • PyQuery
  • XPath

視狀況選擇合適的解析方式。url

保存數據視頻

  • 文本保存
  • 純文本、Json、Xml等。
  • 關係型數據庫保存
  • MySQL、Oracle、SQLServer等。
  • 非關係型數據庫保存
  • MongoDB、Redis等Key-Value形式存儲。
  • 二進制文件
  • 圖片、視頻、音頻等特定文件。

Urllib庫對象

Python內置的HTTP請求庫blog

模塊說明urllib.request請求模塊urllib.error異常處理模塊urllib.parseurl解析模塊urllib.robotparserrobots.txt解析模塊教程

小白用Python玩爬蟲,必須瞭解的一個爬蟲流程!(文末附贈教程)

 

小白用Python玩爬蟲,必須瞭解的一個爬蟲流程!(文末附贈教程)

小白用Python玩爬蟲,必須瞭解的一個爬蟲流程!(文末附贈教程)

相關文章
相關標籤/搜索