前嗅ForeSpider教程:經過子欄目進入連接列表採集正文數據

以房天下爲例,經過二手房子欄目連接到房源列表頁採集正文數據:ide

第一步:新建任務3d

①點擊左上角「加號」新建任務,如圖1:blog

【圖1】模板

②在彈窗裏填寫採集地址,任務名稱,如圖2:軟件

【圖2】表單

③點擊下一步,選擇進行數據抽取仍是連接抽取,本次採集當前頁面子欄目下的列表房源的正文數據,子欄目房源列表是經過點擊子欄目連接進入的,因此本次須要抽取子欄目連接,因此點擊抽取連接,選擇子欄目,如圖3:配置

【圖3】請求

④完成後模板抽取配置列表有兩個模板,默認模板和子欄目。默認模板下自動生成一個連接抽取,名稱爲子欄目,此連接已與子欄目模板關聯,如圖4。方法

【圖4】im

第二步:經過地址過濾,獲得所需的子欄目連接。

①點擊採集預覽,在採集預覽中有於目標連接類似的其餘連接,可經過地址過濾獲得二手房子欄目連接。找到所須要的子欄目連接,右擊複製連接,如圖5所示。

【圖5】

②勾選地址過濾,過濾規則選擇包含,將複製的目標地址粘入,使用過濾串「\E」獲得二手房子欄目連接,如圖6所示。

過濾串規則說明:\E 文件結束(忽略全部請求參數)

【圖6】

③點擊採集預覽確認連接是否過濾徹底,如圖7

【圖7】

第三步:填寫子欄目模板示例地址並新建連接抽取

①填寫示例地址,將模板一過濾獲得的連接,做爲子欄目的示例地址,即二手房子欄目列表頁連接,如圖8所示。

【圖8】

②直接點擊子欄目模板,點擊上面「新建連接抽取」按鈕,獲得連接抽取,如圖9。

【圖9】

第四步:經過地址過濾,獲得所需列表連接。

①右擊模板預覽找到房源列表連接,如圖10所示。觀察連接得出規律使用過濾串獲得目標連接。

【圖10】

②勾選地址過濾,過濾規則選擇包含,將複製的目標地址粘入,使用共用詞「chushou」過濾獲得目標連接,如圖11。

【圖11】

③點擊採集預覽確認連接是否過濾徹底,如圖12

【圖12】

**第五步:建立翻頁連接抽取 **

方法一:建立任務,勾選連接抽取,直接選擇連接列表和普通翻頁,如圖13。

【圖13】

方法二:若是建立任務時,只勾選了連接列表,能夠點擊上一步,回到模板層,補選翻頁連接抽取,點擊下一步,建立翻頁連接。

方法三:直接點擊模板二,點擊上面「新建連接抽取」按鈕,獲得連接抽取,並重名命爲翻頁,如圖14。

【圖14】

第六步:經過標題過濾,過濾翻頁連接

①點擊採集預覽,咱們能夠發現,翻頁連接即爲名爲上一頁、下一頁兩條連接。對於翻頁,只須要取到標題名爲「下一頁」的連接便可。

②這裏應用標題過濾,過濾規則選擇「包含」,過濾串填寫「下一頁」便可。如圖15。

【圖15】

③點擊採集預覽查看是否過濾成功,如圖16.

【圖16】

④關聯「翻頁」

狀況一:建立模板或經過嚮導,建立的翻頁連接抽取,會默認關聯模板一,即當前頁模板,如圖17。

狀況二:手動點擊按鈕建立翻頁連接抽取,須要手動關聯。

【圖17】

第七步:建立新的模板,並新建數據抽取

①在模板配置,點擊「新建模板」按鈕,獲得新建模板,重命名爲正文數據模板,如圖18。

【圖18】

②新建數據抽取。直接點擊模板二,點擊上面「新建數據抽取」按鈕,獲得數據抽取,如圖19。

【圖19】

③關聯模板

在軟件中模板的關聯關係,與網頁中連接跳轉的關係相同。根據網頁跳轉規律,將「新建連接抽取」關聯模板「正文數據模板」,如圖20

【圖20】

第八步:建立/選擇表單

在ForeSpider爬蟲中,表單是能夠複用的,因此能夠在數據表單出直接選擇以前建過的表單,也能夠經過表單ID來進行查找並關聯數據表單。此處使用的是以前建過的房天下的表單,如圖21。

方法一:經過下拉菜單或表單ID選擇已有表單

方法二:點擊建立表單進入快速建表頁面,新建表單

【圖21】

方法三:點擊「採集配置」-「數據建表」,點擊採「採集表單」後面的添加按鈕如圖22。

【圖22】

第九步:配置表單 根據所需內容,配置表單字段(即表頭),此處配置了包括網頁主鍵、標題、網頁連接,以及文本內容四個字段,表單如圖23。

【圖23】

第十步:字段取值

取值方法:按住Ctrl+鼠標左鍵,進行區域選擇,按住Shift+鼠標左鍵,擴大選擇區域。點擊「確認選區」按鈕,確認操做。 Text字段,如圖24:

【圖24】

第十一步:模板預覽

①鼠標右鍵點擊「數據抽取」,而後點擊「模板預覽」,如圖25

【圖25】

②預覽結果如圖26:

【圖26】

第十二步:採集預覽

①點擊右上角採集預覽,如圖27。

【圖27】

②雙擊任意一條連接,看看是否能夠獲得和網頁對應的規整的數據,如圖2八、圖29。

【圖28】

【圖29】

相關文章
相關標籤/搜索