《從零開始學網絡爬蟲》之網絡爬蟲基礎（使用XPath提取信息）3

時間 2020-12-27

原文原文鏈接

即使我們瞭解了HTML的樹結構，要設法解析這棵樹以獲取文本內容，那也將是一個十分艱鉅的任務。好消息是，已經有人替我們實現了這些功能，通過一種被稱爲XPath的語言，就可以輕鬆地定位並提取元素、屬性和文本。Scrapy爬蟲框架中，也引入了XPath語言來定位和提取數據。 1.1.1 XPath介紹 XPath全稱XML Path Language，即XML路徑語言。它是一門在XML文檔中查找信息的語

>>阅读原文<<