1分鐘快速生成用於網頁內容提取的xslt

1,項目背景

《Python即時網絡爬蟲項目說明》一文咱們說過要作一個通用的網絡爬蟲,並且能節省程序員大半的時間,而焦點問題就是提取器使用的抓取規則須要快速生成。在python使用xslt提取網頁數據一文,咱們已經看到這個提取規則是xslt程序,在示例程序中,直接把一長段xslt賦值給變量,可是沒有講這一段xslt是怎麼來的。html

網友必然會質疑:這個xslt這麼長,編寫不是要花很長時間?python

實際狀況是,這個xslt是經過GooSeeker的MS謀數臺的直觀標註功能自動生成的,熟練的話1分鐘就搞定了。程序員

2,MS謀數臺能作什麼

MS謀數臺有個圖形化界面,把一系列html解析工具集成在一塊兒,包括:編程

  • 基於直觀標註自動生成XSLTsegmentfault

  • 即時測試XSLT的正確性api

  • 樹狀的DOM結構展現瀏覽器

  • 剖析某個DOM節點的屬性網絡

  • 爲DOM節點生成XPath,可選擇定位到class、或者id、或者絕對定位工具

  • 根據xpath搜索DOM節點測試

MS謀數臺界面分紅三部分:DOM數窗口、內嵌瀏覽器窗口、工做臺。在工做臺上定義xslt轉換規則。

3,用MS謀數臺生成XSLT

假設咱們要抓取論壇帖子列表,下面一步步講解操做方法:

第一步,打開GooSeeker的MS謀數臺,輸入要抓取的網址;
第二步,在MS謀數臺的瀏覽器顯示窗口裏,直接選取要提取的內容,而且起個名字,點擊確認;
圖片描述

第三步,點擊工做臺的「測試」按鈕,xslt就生成了,在「數據規則」窗口顯示出來。
圖片描述

經過以上的操做,不用編程,用圖形化界面直接在頁面上標註,1分鐘就能夠生成xslt。

4,怎樣使用XSLT

python使用xslt提取網頁數據一文,咱們把生成xslt做爲一個字符串交給程序,給人感受好像一會兒回到了史前文明,前面講的那麼好,最後用了很原始的拷貝。其實否則,那個只是一個例子。在《python 即時網絡爬蟲項目: 內容提取器的定義》一文已經初見端倪了,有多種注入xslt的方式,最自動化的方式是api,將在後續文章中詳細講解。

5,文檔修改歷史

2016-05-28:V3.0,增長第二章2016-05-27:V2.0,增補文字說明

相關文章
相關標籤/搜索