本教程主要對前嗅ForeSpider腳本作了詳細的介紹。主要內容包括:腳本結構,腳本與可視化配置的關係,各節點腳本之間的關係,以及腳本編輯區。具體內容以下:數組
一.ForeSpider腳本結構瀏覽器
ForeSpider腳本是前嗅自主研發的爬蟲腳本語言,風格相似於JavaScript。ForeSpider腳本語言屬於輕量級的腳本語言,爲支持高級數據採集的規則補充,它支持對象操做,函數,數組及對象定義,藉助內置的採集及系統對象幾乎可以完成全部的採集任務,以及靈活的採集控制,同時讓採集引擎有更強的靈活性和擴展性。ide
1.頻道函數
包括「頻道腳本」。3d
2.模板對象
(1)模板配置blog
包括「模板腳本」。教程
(2)連接部分ip
包括「連接抽取腳本」、「連接過濾腳本」。模板
(3)數據部分
包括「數據抽取腳本」。
(4)字段部分
包括「字段取值腳本」、「字段處理腳本」。
二.腳本與可視化配置的關係
1.各部分配置能夠徹底使用腳本編寫,不進行可視化操做;
2.同一步驟既進行了可視化操做的配置,又編寫了腳本,則由腳本接管,可視化配置失效;
3.各步驟能夠一部分使用腳本編寫,一部分使用可視化操做,不重複的配置都有效,重複的配置以腳本優先接管。
三.各節點腳本之間的關係
1.上一操做層級的腳本配置區域能夠編寫涵蓋其下面全部操做層級功能的腳本;
2.若是各層級之間的腳本有重複,以其中高層級步驟的腳本優先生效;
3.能夠將腳本分散於各操做層級編寫,也能夠直接在最高操做層級(頻道腳本)編寫。
四.腳本編輯區介紹
第一級:頻道配置-腳本配置
在「頻道配置」時,經過使用系統內置的腳本語言對頻道進行配置。
①選中該頻道;
②點擊「腳本窗口」,使其變爲「瀏覽器窗口」;
③點擊「新建」圖標,便可建立頻道腳本。
【頻道腳本】
第二級:模板腳本
模板腳本能夠編寫整個模板配置的腳本。
①選中該模板;
②點擊「腳本窗口」,使其變爲「瀏覽器窗口」;
③點擊「新建」圖標,便可建立模板腳本。
【模板腳本】
第三級:連接/數據抽取腳本
1.連接文本
連接腳本能夠編寫整個連接抽取的腳本。
①選中該連接抽取;
②點擊「腳本窗口」,使其變爲「瀏覽器窗口」;
③點擊「新建」圖標,便可建立連接腳本。
【連接腳本】
2.數據抽取腳本
數據抽取腳本能夠編寫整個數據抽取的腳本。
①選中該數據抽取;
②點擊「腳本窗口」,使其變爲「瀏覽器窗口」;
③點擊「新建」圖標,選擇「數據抽取腳本/數據過濾腳本」按鈕,便可生成相應的代碼區。
【選擇數據抽取腳本】
【數據抽取腳本】
第四級:連接過濾、字段取值/清洗腳本
1.連接過濾腳本
連接過濾腳本能夠編寫連接地址或連接標題過濾的腳本。
①選中該連接抽取;
②勾選「地址過濾/標題過濾」複選框,並選擇「腳本過濾」;
③可自動生成相應的「地址過濾/標題腳本"區。
【地址過濾腳本】
【標題過濾腳本】
2.字段取值腳本
字段取值腳本能夠編寫該字段取值的腳本。
①選中該字段;
②在「採集內容」處,勾選「高級取值->腳本過濾」;
③可自動生成相應的字段取值腳本區。
【字段取值腳本】
3.字段處理腳本
字段處理腳本能夠編寫該字段數據處理的腳本。
①選中該字段;
②在「數據清洗」處,勾選「腳本處理」;
③可自動生成相應的字段處理腳本區。
【選擇字段處理腳本】
【字段處理腳本】