以中國證券網爲例,經過當前要聞分區連接到新聞列表頁採集正文數據:ide
第一步:新建任務3d
①點擊左上角「加號」新建任務,如圖1:blog
【圖1】get
②在彈窗裏填寫採集地址,任務名稱,如圖2:it
【圖2】模板
③點擊下一步,選擇進行數據抽取仍是連接抽取,本次採集要聞列表頁新聞的正文數據,正文數據是經過點擊列表連接進入的,因此本次須要抽取列表連接,因此點擊抽取連接,如圖3:軟件
【圖3】表單
第二步:經過地址過濾,獲得所需的分區連接。配置
①點擊採集預覽,在採集預覽中有於目標連接類似的其餘連接,可經過地址過濾獲得分區連接。找到所須要的分區連接,區別於其餘連接「http://news.cnstock.com/news/sns_yw」 ,右擊複製連接,如圖4所示。方法
【圖4】
②勾選地址過濾,過濾規則選擇包含,將複製的目標地址粘入,獲得要聞分區連接,點擊保存,如圖5所示。
【圖5】
③點擊採集預覽確認連接是否過濾徹底,如圖6:
【圖6】
第三步:填寫模板二示例地址並新建數據抽取
①將模板一過濾獲得分區連接,做爲模板二的示例地址, 見圖7:
【圖7】
②建立列表連接抽取、翻頁連接抽取。直接點擊模板二,點擊上面「新建連接抽取」按鈕,獲得連接抽取,並重命名,如圖8:
【圖8】
③進行列表連接抽取,按住Ctrl+鼠標左鍵,進行區域選擇,按住Shift+鼠標左鍵,擴大選擇區域,點擊「確認選區」按鈕,如圖9:
【圖9】
④點擊採集預覽確認連接是否過濾徹底,如圖10:
【圖10】
第四步:經過標題過濾,過濾翻頁連接
①點擊採集預覽,在採集預覽中有於目標連接類似的其餘連接,可經過地址過濾獲得列表連接。找到所須要的列表連接,觀察得出所須要的目標連接都包含「http://news.cnstock.com/news/sns_qy/」 +數字,使用過濾串\d獲得所須要的連接。右擊複製連接,如圖11所示。
過濾串規則說明:\d 表示一串(個)數字
【圖11】
②勾選地址過濾,過濾規則選擇包含,填入 「http://news.cnstock.com/news/sns_qy/\d」 ,獲得列表連接,如圖12所示。
【圖12】
③點擊模板預覽,選擇翻頁連接抽取,確認連接是否過濾徹底,如圖13
【圖13】
第五步:建立新的模板,並新建數據抽取
①在模板配置,點擊「新建模板」按鈕,獲得新建模板,重命名爲正文數據模板,如圖14。
【圖14】
②將模板二新建連接抽取過濾獲得的任意一條連接,做爲模板三的示例地址, 見圖15:
【圖15】
③新建數據抽取。直接點擊模板三,點擊上面「新建數據抽取」按鈕,獲得數據抽取,如圖16。
【圖16】
④關聯模板
在軟件中模板的關聯關係,與網頁中連接跳轉的關係相同。
根據網頁跳轉規律,將「新建連接抽取」關聯模板「新建模板:03」,如圖17:
【圖17】
第六步:建立/選擇表單
①在ForeSpider爬蟲中,表單是能夠複用的,因此能夠在數據表單出直接選擇以前建過的表單,也能夠經過表單ID來進行查找並關聯數據表單。此處使用的方法三,如圖18。
方法一:經過下拉菜單或表單ID選擇已有表單
方法二:點擊建立表單進入快速建表頁面,新建表單
方法三:點擊「採集配置」-「數據建表」,點擊採「採集表單」後面的添加按鈕,如圖18。
【圖18】
②配置表單
根據所需內容,配置表單字段(即表頭),此處配置了包括網頁主鍵、標題、發佈時間、來源、做者、正文內容、採集地址共7個字段,右上角保存,表單如圖19。
【圖19】
③在數據抽取連接處關聯表單,如圖20。
【圖20】
第七步:字段取值
取值方法:按住Ctrl+鼠標左鍵,進行區域選擇,按住Shift+鼠標左鍵,擴大選擇區域。
title字段,如圖21
【圖21】
第八步:模板預覽
①鼠標右鍵點擊「數據抽取」,而後點擊「模板預覽」,如圖22
【圖22】
②預覽結果如圖23:
【圖23】
第九步:採集預覽
①點擊右上角採集預覽,如圖24。
【圖24】
②雙擊任意一條連接,看看是否能夠獲得和網頁對應的規整的數據,如圖2五、圖26。
【圖25】
【圖26】