Python爬蟲(七)_非結構化數據與結構化數據

頁面解析與數據提取

實際上爬蟲一共就四個主要步驟:html

  1. 定(要知道你準備在哪一個範圍或者網站去搜索)
  2. 爬(將全部的網站的內容所有爬下來)
  3. 取(分析數據,去掉對咱們沒用處的數據)
  4. 存(按照咱們想要的方式存儲和使用)
  5. 表(能夠根據數據的類型經過一些圖標展現)

之前學的就是如何從網站去爬數據,而爬下來的數據卻沒作分析,如今,就開始對數據作一些分析。正則表達式

數據,可分爲非結構化數據結構化數據json

  • 非結構化數據:先有數據,再有結構
  • 結構化數據:先有結構,再有數據
  • 不一樣類型的數據,咱們須要採用不一樣的方式來處理

非結構化的數據處理

文本、電話號碼、郵箱地址網站

HTML文件code

  • 正則表達式
  • XPath
  • CSS選擇器

結構化的數據處理

JSON文件xml

  • JSON Path
  • 轉化爲Python類型進行操做(json類)

XML文件htm

    • 轉化爲Python類型(xmltodict)
    • XPath
    • CSS選擇器
    • 正則表達式
相關文章
相關標籤/搜索