scrapy爬取百度貼吧回覆數、作者、標題

scrapy爬取百度貼吧回覆數、作者、標題 思路 解決方法 思路 百度貼吧裏面的源碼數據被註釋了,將數據裏面的註釋進行替換,就可以使用xpath進行提取數據! 可以看出數據都被註釋了 解決方法 將最原始獲得的數據,用replace方法替換掉註釋符 再將替換的數據通過lxml庫中的etree.HTML來解析這個網頁的結構 最後再通過xpath提取數據 圖中的item是scrapy中的items文件中
相關文章
相關標籤/搜索