26.1 XPath helperphp
xPath helper 是一款 Chrome 瀏覽器的開發者插件,安裝了 xPath helper 後就能輕鬆獲取 HTML元素的 xPath,程序員就不再須要經過搜索 html 源代碼,定位一些 id 去找到對應的位置去解析網頁了。html
Google 插件 XPath Helper 能夠支持在網頁點擊元素生成 xpath,整個抓取使用了 xpath、正則表達式、消息中間件、多線程調度框架(參考)。xpath 是一種結構化網頁元素選擇器,支持列表和單節點數據獲取,他的好處能夠支持規整網頁數據抓取。程序員
若是咱們要查找某一個、或者某一塊元素的 xpath 路徑,能夠按住 shift,並移動到這一塊中,上面的框就會顯示這個元素的 xpath 路徑,右邊則會顯示解析出的文本內容,而且咱們能夠本身改動 xpath 路徑,程序也會自動的顯示對應的位置,能夠很方便的幫助咱們判斷咱們的 xpath 語句是否書寫正確。正則表達式
你能夠從 chrome 應用商店裏找到 chrome 爬蟲插件,若是你的 chrome 應用商店沒法打開,你能夠從個人網盤(對應書的配套工具)裏獲取(xpath-helper.crx)。chrome
1. 若是你可以打開 chrome 應用商店,而且能夠找到 chrome 爬蟲插件,那麼直接點擊「添加至 chrome」,以下圖所示:瀏覽器
2 . 若是你的 chrome 應用商店沒法打開,你從個人網盤或者其餘途徑得到了chrome 爬蟲插件,那麼就選擇離線安裝該插件。因爲 chrome 爬蟲插件同其餘 chrome 插件同樣都是 CRX格式的,具體的安裝方法以下:多線程
1)在 chrome 中新開一個窗口,輸入:chrome://extensions/ 回車,打開應用管理器。框架
2)把 crx 文件拖到應用管理器界面裏,鬆開鼠標,會彈出安裝提示,點擊肯定安裝就能夠了。工具
3)從新啓動瀏覽器,ctrl+shift+x 便可使用。插件
下面以騰訊社招網職位信息爲例介紹一下: