爬蟲:信息提取的一般方法

信息提取的一般方法 方法一:完整解析信息的標記形式,再提取關鍵信息。 XML JSON YAML 需要標記解析器 例如:bs4庫的標籤樹遍歷 優點:信息解析準確 缺點:提取過程繁瑣,速度慢   方法二:無視標記形式,直接搜索關鍵信息。 搜索 對信息的文本查找函數即可 優點:提取過程簡潔,速度快 缺點:提取結果準確性與信息內容相關   融合方法 融合方法:結合形式解析與搜索方法,提取關鍵信息。 XM
相關文章
相關標籤/搜索