Python爬蟲(九)_非結構化數據與結構化數據

時間 2019-11-08

標籤 python 爬蟲構化數據欄目 Python 简体版

原文原文鏈接

爬蟲的一個重要步驟就是頁面解析與數據提取。更多內容請參考：Python學習指南正則表達式

頁面解析與數據提取

實際上爬蟲一共就四個主要步驟：json

定（要知道你準備在哪一個範圍或者網站去搜索）
爬（將全部的網站的內容所有爬下來）
取（分析數據，去掉對咱們沒用處的數據）
存（按照咱們想要的方式存儲和使用）
表（能夠根據數據的類型經過一些圖標展現）

之前學的就是如何從網站去爬數據，而爬下來的數據卻沒作分析，如今，就開始對數據作一些分析。學習

數據，可分爲非結構化數據和結構化數據網站

非結構化數據：先有數據，再有結構
結構化數據：先有結構，再有數據
不一樣類型的數據，咱們須要採用不一樣的方式來處理

非結構化的數據處理

文本、電話號碼、郵箱地址code

正則表達式Python正則表達式

HTML文件xml

正則表達式
XPath
CSS選擇器

結構化的數據處理

JSON文件搜索

JSON Path
轉化爲Python類型進行操做（json類）

XML文件數據

轉化爲Python類型（xmltodict）
XPath
CSS選擇器
正則表達式

相關文章

相關標籤/搜索

數據結構+Java

java數據結構

C++數據結構

數據結構（二）

數據結構總結1

每日一句

每一个你不满意的现在，都有一个你没有努力的曾经。

最新文章

本站公眾號

歡迎關注本站公眾號,獲取更多信息

相關文章

>>更多相關文章<<