網絡風行者(KSpider)的規則體系結構

最近在寫龍龍第二版網絡風行者。網絡風行者引入了規則體系,簡介如下: 規則主要分成兩部分,一是數據匹配規則,二是數據提取規則。本文詳述數據匹配規則,數據提取規則只簡單提及。 我認爲好的規則應該具備以下兩點: (1)實用,能適用於大部分應用場合 (2)易用,容易編寫與調試 我看了幾個國內現有的網絡信息提取軟件,主要是通過制定正則表達式進行提取,適用的場景有限,主要適用於1對1的數據提取場景,既從1個頁
相關文章
相關標籤/搜索