Python爬蟲:scrapy利用html5lib解析不規範的html文本

問題 當爬取表格(table) 的內容時,發現用 xpath helper 獲取正常,程序卻解析不到css 在chrome、火狐測試都有這個狀況。出現這種緣由是由於瀏覽器會對html文本進行必定的規範化 scrapy 使用的解析器是 lxml ,下面使用lxml解析,只是函數表達不同,xpath和css選擇器的語法同樣html 安裝解析器html5 pip install beautifulsou
相關文章
相關標籤/搜索