Python爬蟲：scrapy利用html5lib解析不規範的html文本

時間 2020-01-15

標籤 python 爬蟲 scrapy 利用 html5lib html lib 解析不規範文本欄目 Python 简体版

原文原文鏈接

問題當爬取表格(table) 的內容時，發現用 xpath helper 獲取正常，程序卻解析不到css 在chrome、火狐測試都有這個狀況。出現這種緣由是由於瀏覽器會對html文本進行必定的規範化 scrapy 使用的解析器是 lxml ，下面使用lxml解析，只是函數表達不同，xpath和css選擇器的語法同樣html 安裝解析器html5 pip install beautifulsou

>>阅读原文<<