08-頁面解析之數據提取-python爬蟲

​一般來講對我們而言,需要抓取的是某個網站或者某個應用的內容,提取有用的價值,內容一般分爲兩部分,非結構化的文本,或結構化的文本。 關於結構化的數據 JSON、XML、HTML HTML文本(包含JavaScript代碼)是最常見的數據格式,理應屬於結構化的文本組織,但因爲一般我們需要的關鍵信息並非直接可以得到 需要進行對HTML的解析查找,甚至一些字符串操作才能得到,所以還是歸類於非結構化的數據
相關文章
相關標籤/搜索