python爬蟲學習筆記 -- 信息提取及HTML內容查找方法(soup.find_all()) + 正則表達式

時間 2020-02-02

標籤 python 爬蟲學習筆記信息提取 html 內容查找方法 soup.find soup 正則表達式欄目 Python 简体版

原文原文鏈接

方法一：完整解析信息的標記形式，再提取關鍵信息正則表達式須要標記解析器（例如bs4庫的標籤樹遍歷）函數優勢：信息解析準確url 缺點：提取過程繁瑣，速度慢字符串方法二：無視標記形式，直接搜索關鍵信息get 直接對信息的文本查找函數便可string 優勢：簡介，快速io 缺點：提取結果準確性與信息內容相關import 融合方法：結合形式的解析和搜索方法，提取關鍵信息變量 XM

>>阅读原文<<