08-頁面解析之數據提取-python爬蟲

時間 2020-12-30

原文原文鏈接

一般來講對我們而言，需要抓取的是某個網站或者某個應用的內容，提取有用的價值，內容一般分爲兩部分，非結構化的文本，或結構化的文本。關於結構化的數據 JSON、XML、HTML HTML文本（包含JavaScript代碼）是最常見的數據格式，理應屬於結構化的文本組織，但因爲一般我們需要的關鍵信息並非直接可以得到需要進行對HTML的解析查找，甚至一些字符串操作才能得到，所以還是歸類於非結構化的數據

>>阅读原文<<