《從零開始學網絡爬蟲》之網絡爬蟲基礎(使用XPath提取信息)3

即使我們瞭解了HTML的樹結構,要設法解析這棵樹以獲取文本內容,那也將是一個十分艱鉅的任務。好消息是,已經有人替我們實現了這些功能,通過一種被稱爲XPath的語言,就可以輕鬆地定位並提取元素、屬性和文本。Scrapy爬蟲框架中,也引入了XPath語言來定位和提取數據。 1.1.1 XPath介紹 XPath全稱XML Path Language,即XML路徑語言。它是一門在XML文檔中查找信息的語
相關文章
相關標籤/搜索