一直想把本身這段時間作的東西整理下,確遲遲沒有動手,如今信息抽取工做已經作的差很少,把本身感受很好用的兩個工具介紹給你們吧!
Firefox真是一個好東西,它許多插件。本人是很討厭插件的,每次電腦裏都會安裝一大堆無用的插件,看着內心不爽。因爲項目須要,要看網頁的代碼,而且找到有用信息,若是下載一個html頁面,用記事本打開看,那無異因而一場災難,幸虧同事給我推薦了firebug這個看代碼的工具,後來把html文件轉化成xml,要提取信息,須要用到xpath。因爲不知道xpath是否正確,這個工具就能夠驗證,呵呵。說了好多廢話,開始介紹下個人使用歷程吧。
從firefox的官方網站上下載firebug和xpathchecker這兩個插件,安裝步驟安裝就能夠了。
Firebug:
安裝好以後,能夠在屏幕的下方看到一個小蟲的標誌,是暗色的,說明該插件沒有開啓,點小蟲圖標屏幕下方會出現一欄。
在這一欄能夠看到小蟲變亮了,旁邊還有查看,編輯的功能。
點查看,而後移動鼠標到你想的內容,這時發現你鼠標在的地方在下面一欄的代碼就出現了。
簡單吧,但對你要看代碼,知道代碼的具體位子但是很重要的。
在代碼處 點右鍵, 出現菜單欄, 選中複製XPath
將XPath 複製到文件就能夠看到選中內容的xpath了。
它還有不少有用的功能,由於不須要,也沒有研究,呵呵。
XPath Checker:
在網上看了使用方法,開始沒看明白,後來才知道是在頁面上點鼠標右鍵,出現菜單,點擊view xpath。
將剛纔的XPath複製到XPath checker中剛纔的內容就顯示出來。
還能夠把xml用firefox打開,而後點view xpath,在xpath checker裏的xpath輸入你要查找的xpath,結果就出來了,頗有用的哦!
html