前嗅ForeSpider教程:採集黃頁88

以黃頁88爲例,採集當前列表頁新聞的正文數據:html

第一步:新建任務ide

①點擊左上角「加號」新建任務,如圖1:3d

【圖1】htm

②在彈窗裏填寫採集地址,任務名稱,如圖2:blog

【圖2】it

③點擊下一步,選擇進行數據抽取仍是連接抽取,本次採集當前列表頁聯繫方式連接,正文數據是經過點擊列表連接進入的,因此本次須要抽取列表連接,因此點擊抽取連接,翻頁選擇普通翻頁,如圖3:模板

【圖3】表單

④完成後模板抽取配置列表有兩個模板,默認模板和連接列表。默認模板下自動生成兩個連接抽取,一個爲連接列表抽取,已與模板「連接列表」關聯,一個爲普通翻頁連接,此連接已與默認模板自身關聯,如圖4。配置

【圖4】方法

第二步:經過地址過濾,獲得所需的聯繫方式連接。

①點擊採集預覽,在採集預覽中有於目標連接類似的其餘連接,可經過地址過濾獲得聯繫方式連接。找到所須要的連接,右擊複製連接,如圖5所示。

【圖5】

②勾選地址過濾,過濾規則選擇包含,將複製的目標地址粘入,使用公共部分「company_contact.html」進行地址過濾,獲得所需連接,如圖6所示。

【圖6】

③點擊採集預覽確認連接是否過濾徹底,如圖7

【圖7】

第三步:過濾翻頁連接

①在採集預覽中選擇普通翻頁,在採集預覽中有於目標連接類似的其餘連接,可經過地址過濾獲得列表連接。找到所須要的列表連接,觀察得出所須要的目標連接都包含「pn+數字」。使用過濾串「\d」,右擊複製連接,如圖8所示。 過濾串規則說明:\d 表示一串(個)數字

【圖8】

②勾選地址過濾,過濾規則選擇包含,填入「pn\d」,獲得列表連接,如圖9所示。

【圖9】

③右擊模板一,選擇模板預覽,採集預覽確認連接是否過濾徹底,如圖10:

【圖10】

第四步:填寫模板二示例地址並新建數據抽取

①將模板一過濾獲得的任意一條連接,做爲模板二的示例地址, 見圖11:

【圖11】

②新建數據抽取

方法一:經過點擊「下一步」後勾選抽取數據,再次點擊「下一步」獲得數據抽取。

方法二:直接點擊模板二,點擊上面「新建數據抽取」按鈕,獲得數據抽取,如圖12

【圖12】

第五步:建立/選擇表單

在ForeSpider爬蟲中,表單是能夠複用的,因此能夠在數據表單出直接選擇以前建過的表單,也能夠經過表單ID來進行查找並關聯數據表單。此處使用的方法三。

方法一:經過下拉菜單或表單ID選擇已有表單

方法二:點擊建立表單進入快速建表頁面,新建表單。

方法三:點擊「採集配置」-「數據建表」,點擊採「採集表單」後面的添加按鈕,如圖13:

【圖13】

第六步:配置表單

根據所需內容,配置表單字段(即表頭),此處配置了網頁主鍵、聯繫人、聯繫方式、公司名稱、公司網址連接共5個字段,表單如圖14:

【圖14】

第七步:字段取值

①在數據抽取部分導入表單:黃頁

【圖15】

②Per_name字段。如圖16所示,綠框選中聯繫人,確認選區,而後選擇腳本處理,取值「:」以後的姓名。

選區取值方法:按住Ctrl+鼠標左鍵,進行區域選擇,按住Shift+鼠標左鍵,擴大選擇區域。

代碼:return VALUE.Right(":");

代碼如圖17所示。

【圖16】

【圖17】

③Com_name 字段。同per_name字段,綠框選中公司名稱,確認選區,而後選擇腳本處理,取值「:」以後的名稱。

選區取值方法:按住Ctrl+鼠標左鍵,進行區域選擇,按住Shift+鼠標左鍵,擴大選擇區域。

代碼:return VALUE.Right(":");

④Tel 字段。如圖18所示,由於在模板預覽中連接標題就是手機號,因此採用了高級取值---腳本取值。

【圖18】

直接在腳本處寫上「return URL.title;」 即連接標題名爲手機號,如圖19所示。

代碼:return URL.title;

【圖19】

⑤Link字段。採集內容選擇網頁信息>網頁地址,保存便可,如圖20所示。

【圖20】

第八步:模板預覽

①鼠標右鍵點擊「數據抽取」,而後點擊「模板預覽」,如圖21。

【圖21】

②預覽結果,如圖22所示。

【圖22】

第九步:採集預覽

①點擊右上角採集預覽,如圖23:

【圖23】

②雙擊任意一條連接,看看是否能夠獲得和網頁對應的規整的數據,如圖24所示。

【圖24】

相關文章
相關標籤/搜索