爬蟲基礎 之(二) --- urllib基礎

簡介

爬取數據種類html

  網頁:網頁文本,如HTML文檔,Json格式化文本等
  圖片:獲取到的是二進制文件,保存爲圖片格式
  視頻:一樣是二進制文件
  其餘:只要請求到的,均可以獲取python

解析數據方法web

  1. 直接處理
  2. Json解析
  3. 正則表達式處理
  4. BeautifulSoup解析處理
  5. PyQuery解析處理
  6. XPath解析處理

問題難點  ajax

  抓取的頁面數據和瀏覽器裏看到的不同的問題正則表達式

  由於不少網站中的數據都是經過js,ajax動態加載的,因此直接經過get請求獲取的頁面和瀏覽器顯示的不一樣。sql

  如何解決js渲染問題:分析ajax、Selenium/webdriver、Splash、PyV八、Ghost.py數據庫

保存數據瀏覽器

  文本: 純文本,Json、Xml等oracle

  關係型數據庫:   Mysql、oracle、sql server等結構化數據庫框架

  非關係型數據庫:MongoDB、Redis等key-value形式存儲

urllib

 官方文檔https://docs.python.org/zh-cn/3/library/urllib.html

 urllib介紹

 Urllib是python內置的HTTP請求庫,是python提供的一個用於發起和處理http請求和響應的框架。

 後期的一些框架,好比: requests、 scrapy等都是基於它

 包括如下四個模塊:

  1. urllib.error        異常處理模塊
  2. urllib.request      請求模塊
  3. urllib.parse       url解析模塊
  4. urllib.robotparser     robots.txt解析模塊

mac中使用:

import ssl
ssl._create_default_https_context = ssl._create_unverified_context

相關文章
相關標籤/搜索