XPath與正則表達式在文本數據提取時該如何選擇?

從互聯網上下載到網頁,只是我們邁向成功的第一步。拿到網頁數據以後,我們需要從中提取我們想要的具體信息, 比如標題、內容、時間、作者等。最常見的的提取方式有兩種:XPath和正則表達式。   先簡單介紹一下XPATH和正則表達式。   XPath即爲 XML 路徑語言(XML Path Language),它是一種用來確定XML文檔中某部分位置的語言。 XPath基於 XML的樹狀結構,提供在數據結
相關文章
相關標籤/搜索