以黃頁88爲例,採集當前列表頁新聞的正文數據:html
第一步:新建任務ide
①點擊左上角「加號」新建任務,如圖1:3d
【圖1】htm
②在彈窗裏填寫採集地址,任務名稱,如圖2:blog
【圖2】it
③點擊下一步,選擇進行數據抽取仍是連接抽取,本次採集當前列表頁聯繫方式連接,正文數據是經過點擊列表連接進入的,因此本次須要抽取列表連接,因此點擊抽取連接,翻頁選擇普通翻頁,如圖3:模板
【圖3】表單
④完成後模板抽取配置列表有兩個模板,默認模板和連接列表。默認模板下自動生成兩個連接抽取,一個爲連接列表抽取,已與模板「連接列表」關聯,一個爲普通翻頁連接,此連接已與默認模板自身關聯,如圖4。配置
【圖4】方法
第二步:經過地址過濾,獲得所需的聯繫方式連接。
①點擊採集預覽,在採集預覽中有於目標連接類似的其餘連接,可經過地址過濾獲得聯繫方式連接。找到所須要的連接,右擊複製連接,如圖5所示。
【圖5】
②勾選地址過濾,過濾規則選擇包含,將複製的目標地址粘入,使用公共部分「company_contact.html」進行地址過濾,獲得所需連接,如圖6所示。
【圖6】
③點擊採集預覽確認連接是否過濾徹底,如圖7
【圖7】
第三步:過濾翻頁連接
①在採集預覽中選擇普通翻頁,在採集預覽中有於目標連接類似的其餘連接,可經過地址過濾獲得列表連接。找到所須要的列表連接,觀察得出所須要的目標連接都包含「pn+數字」。使用過濾串「\d」,右擊複製連接,如圖8所示。 過濾串規則說明:\d 表示一串(個)數字
【圖8】
②勾選地址過濾,過濾規則選擇包含,填入「pn\d」,獲得列表連接,如圖9所示。
【圖9】
③右擊模板一,選擇模板預覽,採集預覽確認連接是否過濾徹底,如圖10:
【圖10】
第四步:填寫模板二示例地址並新建數據抽取
①將模板一過濾獲得的任意一條連接,做爲模板二的示例地址, 見圖11:
【圖11】
②新建數據抽取
方法一:經過點擊「下一步」後勾選抽取數據,再次點擊「下一步」獲得數據抽取。
方法二:直接點擊模板二,點擊上面「新建數據抽取」按鈕,獲得數據抽取,如圖12
【圖12】
第五步:建立/選擇表單
在ForeSpider爬蟲中,表單是能夠複用的,因此能夠在數據表單出直接選擇以前建過的表單,也能夠經過表單ID來進行查找並關聯數據表單。此處使用的方法三。
方法一:經過下拉菜單或表單ID選擇已有表單
方法二:點擊建立表單進入快速建表頁面,新建表單。
方法三:點擊「採集配置」-「數據建表」,點擊採「採集表單」後面的添加按鈕,如圖13:
【圖13】
第六步:配置表單
根據所需內容,配置表單字段(即表頭),此處配置了網頁主鍵、聯繫人、聯繫方式、公司名稱、公司網址連接共5個字段,表單如圖14:
【圖14】
第七步:字段取值
①在數據抽取部分導入表單:黃頁
【圖15】
②Per_name字段。如圖16所示,綠框選中聯繫人,確認選區,而後選擇腳本處理,取值「:」以後的姓名。
選區取值方法:按住Ctrl+鼠標左鍵,進行區域選擇,按住Shift+鼠標左鍵,擴大選擇區域。
代碼:return VALUE.Right(":");
代碼如圖17所示。
【圖16】
【圖17】
③Com_name 字段。同per_name字段,綠框選中公司名稱,確認選區,而後選擇腳本處理,取值「:」以後的名稱。
選區取值方法:按住Ctrl+鼠標左鍵,進行區域選擇,按住Shift+鼠標左鍵,擴大選擇區域。
代碼:return VALUE.Right(":");
④Tel 字段。如圖18所示,由於在模板預覽中連接標題就是手機號,因此採用了高級取值---腳本取值。
【圖18】
直接在腳本處寫上「return URL.title;」 即連接標題名爲手機號,如圖19所示。
代碼:return URL.title;
【圖19】
⑤Link字段。採集內容選擇網頁信息>網頁地址,保存便可,如圖20所示。
【圖20】
第八步:模板預覽
①鼠標右鍵點擊「數據抽取」,而後點擊「模板預覽」,如圖21。
【圖21】
②預覽結果,如圖22所示。
【圖22】
第九步:採集預覽
①點擊右上角採集預覽,如圖23:
【圖23】
②雙擊任意一條連接,看看是否能夠獲得和網頁對應的規整的數據,如圖24所示。
【圖24】