Python爬蟲(七)_非結構化數據與結構化數據

時間 2019-11-08

標籤 python 爬蟲構化數據欄目 Python 简体版

原文原文鏈接

實際上爬蟲一共就四個主要步驟：html

定（要知道你準備在哪一個範圍或者網站去搜索）

爬（將全部的網站的內容所有爬下來）

取（分析數據，去掉對咱們沒用處的數據）

存（按照咱們想要的方式存儲和使用）

表（能夠根據數據的類型經過一些圖標展現）

之前學的就是如何從網站去爬數據，而爬下來的數據卻沒作分析，如今，就開始對數據作一些分析。正則表達式

數據，可分爲非結構化數據和結構化數據json

非結構化數據：先有數據，再有結構

結構化數據：先有結構，再有數據

不一樣類型的數據，咱們須要採用不一樣的方式來處理

文本、電話號碼、郵箱地址網站

HTML文件code

JSON文件xml

XML文件htm

相關標籤/搜索