以房天下爲例,經過二手房子欄目連接到房源列表頁採集正文數據:ide
第一步:新建任務3d
①點擊左上角「加號」新建任務,如圖1:blog
【圖1】模板
②在彈窗裏填寫採集地址,任務名稱,如圖2:軟件
【圖2】表單
③點擊下一步,選擇進行數據抽取仍是連接抽取,本次採集當前頁面子欄目下的列表房源的正文數據,子欄目房源列表是經過點擊子欄目連接進入的,因此本次須要抽取子欄目連接,因此點擊抽取連接,選擇子欄目,如圖3:配置
【圖3】請求
④完成後模板抽取配置列表有兩個模板,默認模板和子欄目。默認模板下自動生成一個連接抽取,名稱爲子欄目,此連接已與子欄目模板關聯,如圖4。方法
【圖4】im
第二步:經過地址過濾,獲得所需的子欄目連接。
①點擊採集預覽,在採集預覽中有於目標連接類似的其餘連接,可經過地址過濾獲得二手房子欄目連接。找到所須要的子欄目連接,右擊複製連接,如圖5所示。
【圖5】
②勾選地址過濾,過濾規則選擇包含,將複製的目標地址粘入,使用過濾串「\E」獲得二手房子欄目連接,如圖6所示。
過濾串規則說明:\E 文件結束(忽略全部請求參數)
【圖6】
③點擊採集預覽確認連接是否過濾徹底,如圖7
【圖7】
第三步:填寫子欄目模板示例地址並新建連接抽取
①填寫示例地址,將模板一過濾獲得的連接,做爲子欄目的示例地址,即二手房子欄目列表頁連接,如圖8所示。
【圖8】
②直接點擊子欄目模板,點擊上面「新建連接抽取」按鈕,獲得連接抽取,如圖9。
【圖9】
第四步:經過地址過濾,獲得所需列表連接。
①右擊模板預覽找到房源列表連接,如圖10所示。觀察連接得出規律使用過濾串獲得目標連接。
【圖10】
②勾選地址過濾,過濾規則選擇包含,將複製的目標地址粘入,使用共用詞「chushou」過濾獲得目標連接,如圖11。
【圖11】
③點擊採集預覽確認連接是否過濾徹底,如圖12
【圖12】
**第五步:建立翻頁連接抽取 **
方法一:建立任務,勾選連接抽取,直接選擇連接列表和普通翻頁,如圖13。
【圖13】
方法二:若是建立任務時,只勾選了連接列表,能夠點擊上一步,回到模板層,補選翻頁連接抽取,點擊下一步,建立翻頁連接。
方法三:直接點擊模板二,點擊上面「新建連接抽取」按鈕,獲得連接抽取,並重名命爲翻頁,如圖14。
【圖14】
第六步:經過標題過濾,過濾翻頁連接
①點擊採集預覽,咱們能夠發現,翻頁連接即爲名爲上一頁、下一頁兩條連接。對於翻頁,只須要取到標題名爲「下一頁」的連接便可。
②這裏應用標題過濾,過濾規則選擇「包含」,過濾串填寫「下一頁」便可。如圖15。
【圖15】
③點擊採集預覽查看是否過濾成功,如圖16.
【圖16】
④關聯「翻頁」
狀況一:建立模板或經過嚮導,建立的翻頁連接抽取,會默認關聯模板一,即當前頁模板,如圖17。
狀況二:手動點擊按鈕建立翻頁連接抽取,須要手動關聯。
【圖17】
第七步:建立新的模板,並新建數據抽取
①在模板配置,點擊「新建模板」按鈕,獲得新建模板,重命名爲正文數據模板,如圖18。
【圖18】
②新建數據抽取。直接點擊模板二,點擊上面「新建數據抽取」按鈕,獲得數據抽取,如圖19。
【圖19】
③關聯模板
在軟件中模板的關聯關係,與網頁中連接跳轉的關係相同。根據網頁跳轉規律,將「新建連接抽取」關聯模板「正文數據模板」,如圖20
【圖20】
第八步:建立/選擇表單
在ForeSpider爬蟲中,表單是能夠複用的,因此能夠在數據表單出直接選擇以前建過的表單,也能夠經過表單ID來進行查找並關聯數據表單。此處使用的是以前建過的房天下的表單,如圖21。
方法一:經過下拉菜單或表單ID選擇已有表單
方法二:點擊建立表單進入快速建表頁面,新建表單
【圖21】
方法三:點擊「採集配置」-「數據建表」,點擊採「採集表單」後面的添加按鈕如圖22。
【圖22】
第九步:配置表單 根據所需內容,配置表單字段(即表頭),此處配置了包括網頁主鍵、標題、網頁連接,以及文本內容四個字段,表單如圖23。
【圖23】
第十步:字段取值
取值方法:按住Ctrl+鼠標左鍵,進行區域選擇,按住Shift+鼠標左鍵,擴大選擇區域。點擊「確認選區」按鈕,確認操做。 Text字段,如圖24:
【圖24】
第十一步:模板預覽
①鼠標右鍵點擊「數據抽取」,而後點擊「模板預覽」,如圖25
【圖25】
②預覽結果如圖26:
【圖26】
第十二步:採集預覽
①點擊右上角採集預覽,如圖27。
【圖27】
②雙擊任意一條連接,看看是否能夠獲得和網頁對應的規整的數據,如圖2八、圖29。
【圖28】
【圖29】