Python的BeautifulSoup中的HTML結構解析

BS把HTML看做一個樹形,以標籤和文本爲基本類型,一個標籤包含其他標籤,被解析爲一個標籤是另一個標籤的子樹。那麼,最終整個HTML文檔被解析爲一棵樹的形式。 BS包括四種基本類型: Soup(樹),Tag(標籤節點),String(字符節點),Comment(註釋節點)。 這四種類型的節點構成樹,Soup代表這顆樹,String爲葉子節點,tag爲標籤子節點,爲其標籤包含的所有內容。 剖析 HT
相關文章
相關標籤/搜索