beautiful soup 4.0(bs4)遍歷文檔樹(2)

一、概述 在使用爬蟲程序對爬取的文檔進行處理時,常常要作的一個操做就是遍歷文檔樹。文檔以樹形結構進行組織,因此遍歷文檔的操做又叫遍歷文檔樹。beautiful soup自己提供了不少遍歷文檔樹的方法,本文主要討論遍歷文檔樹的方法。html 二、遍歷文檔樹 2.1 準備工做 本文將使用公衆號的文章做爲遍歷的對象,因此首先須要先把整個文檔抓取下來,並將多餘的元素去除掉,只保留文檔的主體部分以保證文檔分
相關文章
相關標籤/搜索