前嗅ForeSpider教程:採集中國證券網

以中國證券網爲例,經過當前要聞分區連接到新聞列表頁採集正文數據:ide

第一步:新建任務3d

①點擊左上角「加號」新建任務,如圖1:blog

【圖1】get

②在彈窗裏填寫採集地址,任務名稱,如圖2:it

【圖2】模板

③點擊下一步,選擇進行數據抽取仍是連接抽取,本次採集要聞列表頁新聞的正文數據,正文數據是經過點擊列表連接進入的,因此本次須要抽取列表連接,因此點擊抽取連接,如圖3:軟件

【圖3】表單

第二步:經過地址過濾,獲得所需的分區連接。配置

①點擊採集預覽,在採集預覽中有於目標連接類似的其餘連接,可經過地址過濾獲得分區連接。找到所須要的分區連接,區別於其餘連接「http://news.cnstock.com/news/sns_yw」 ,右擊複製連接,如圖4所示。方法

【圖4】

②勾選地址過濾,過濾規則選擇包含,將複製的目標地址粘入,獲得要聞分區連接,點擊保存,如圖5所示。

【圖5】

③點擊採集預覽確認連接是否過濾徹底,如圖6:

【圖6】

第三步:填寫模板二示例地址並新建數據抽取

①將模板一過濾獲得分區連接,做爲模板二的示例地址, 見圖7:

【圖7】

②建立列表連接抽取、翻頁連接抽取。直接點擊模板二,點擊上面「新建連接抽取」按鈕,獲得連接抽取,並重命名,如圖8:

【圖8】

③進行列表連接抽取,按住Ctrl+鼠標左鍵,進行區域選擇,按住Shift+鼠標左鍵,擴大選擇區域,點擊「確認選區」按鈕,如圖9:

【圖9】

④點擊採集預覽確認連接是否過濾徹底,如圖10:

【圖10】

第四步:經過標題過濾,過濾翻頁連接

①點擊採集預覽,在採集預覽中有於目標連接類似的其餘連接,可經過地址過濾獲得列表連接。找到所須要的列表連接,觀察得出所須要的目標連接都包含「http://news.cnstock.com/news/sns_qy/」 +數字,使用過濾串\d獲得所須要的連接。右擊複製連接,如圖11所示。

過濾串規則說明:\d 表示一串(個)數字

【圖11】

②勾選地址過濾,過濾規則選擇包含,填入 「http://news.cnstock.com/news/sns_qy/\d」 ,獲得列表連接,如圖12所示。

【圖12】

③點擊模板預覽,選擇翻頁連接抽取,確認連接是否過濾徹底,如圖13

【圖13】

第五步:建立新的模板,並新建數據抽取

①在模板配置,點擊「新建模板」按鈕,獲得新建模板,重命名爲正文數據模板,如圖14。

【圖14】

②將模板二新建連接抽取過濾獲得的任意一條連接,做爲模板三的示例地址, 見圖15:

【圖15】

③新建數據抽取。直接點擊模板三,點擊上面「新建數據抽取」按鈕,獲得數據抽取,如圖16。

【圖16】

④關聯模板

在軟件中模板的關聯關係,與網頁中連接跳轉的關係相同。

根據網頁跳轉規律,將「新建連接抽取」關聯模板「新建模板:03」,如圖17:

【圖17】

第六步:建立/選擇表單

①在ForeSpider爬蟲中,表單是能夠複用的,因此能夠在數據表單出直接選擇以前建過的表單,也能夠經過表單ID來進行查找並關聯數據表單。此處使用的方法三,如圖18。

方法一:經過下拉菜單或表單ID選擇已有表單

方法二:點擊建立表單進入快速建表頁面,新建表單

方法三:點擊「採集配置」-「數據建表」,點擊採「採集表單」後面的添加按鈕,如圖18。

【圖18】

②配置表單

根據所需內容,配置表單字段(即表頭),此處配置了包括網頁主鍵、標題、發佈時間、來源、做者、正文內容、採集地址共7個字段,右上角保存,表單如圖19。

【圖19】

③在數據抽取連接處關聯表單,如圖20。

【圖20】

第七步:字段取值

取值方法:按住Ctrl+鼠標左鍵,進行區域選擇,按住Shift+鼠標左鍵,擴大選擇區域。

title字段,如圖21

【圖21】

第八步:模板預覽

①鼠標右鍵點擊「數據抽取」,而後點擊「模板預覽」,如圖22

【圖22】

②預覽結果如圖23:

【圖23】

第九步:採集預覽

①點擊右上角採集預覽,如圖24。

【圖24】

②雙擊任意一條連接,看看是否能夠獲得和網頁對應的規整的數據,如圖2五、圖26。

【圖25】

【圖26】

相關文章
相關標籤/搜索