前嗅ForeSpider教程:如何建立新任務

從今天起,小編開始教你們逐步進行可視化配置操做。首先,咱們來學習第一步:建立新任務,主要包括建立新任務的操做步驟,操做中的注意事項兩部份內容。

一,建立新任務操做步驟:html

1.添加新任務瀏覽器

點擊任務列表右側,新建任務文件。cookie

clipboard.png

【添加任務】
此時會出現一個彈框,能夠在彈框中填寫採集地址,修改任務名稱,以及選擇是否須要登陸/關鍵詞采集。網絡

clipboard.png

【新建任務】工具

2.填寫採集地址學習

在彈窗裏填寫採集地址和任務名稱。網站

clipboard.png

【填寫採集地址】url

採集地址通常選擇目標網站的入口地址,好比首頁。
大多數狀況下,採集地址只填寫一個url地址。若是連接的頁面結構和層級結構是一致的,可以套用同一套採集模板進行採集,可填寫多個採集地址,中間用回車換行分隔。若是不一致,須要建立新的採集任務。spa

例1:採集整個淘寶網所有商品的信息,淘寶網首頁就是入口地址。code

例2:只採集「女裝」類別的商品信息,「女裝」首頁就是入口地址。

例3:只採集某商品的評論信息,該商品的連接地址就是入口地址。

3.選擇當前頁面所需內容

建立新的任務以後,點擊「下一步」,選擇頁面須要抽取內容。
①抽取連接:須要抽取頁面上的連接時,選擇抽取連接以及具體的連接類型,會創建對應的連接抽取。(方式一:智能過濾/方式二:定位過濾/方式三:地址/標題過濾)
②抽取數據:須要抽取頁面上的數據時,選擇抽取數據,會創建對應的數據抽取。(>>如何選擇表單)
例如:
須要採集新聞的正文數據,當前頁面是新聞首頁,聚集了新聞的連接,正文數據是經過點擊新聞連接進入的,因此本頁面須要抽取新聞連接。
軟件預置了一些常見的連接頁面場景,此時勾選連接列表,軟件會自動創建一個連接抽取。

clipboard.png

【選擇頁面抽取內容】
點擊「完成」,軟件自動建立對應的抽取內容的模板。

二,建立新任務注意事項

1.如何選擇採集類型

採集類型分爲默認(html)和本地文件目錄兩種。
(1)默認(html):採集網站上的各類信息
(2)本地文件目錄:採集本地文件目錄信息。

clipboard.png

【設置採集類型】

2.什麼狀況下選擇瀏覽器採集

在頁面均由JS生成時,採集效果不理想的狀況下,能夠嘗試使用「瀏覽器採集」,該方式近乎於在瀏覽器上點擊,會減慢採集速度,可是對JS語法的支持更加全面。
瀏覽器採集:經過瀏覽器的方式採集數據。
適用狀況:由大量JS生成的,採集難度大的網頁。對JS語法的支持更加全面,近乎於在瀏覽器上點擊,但採集速度慢、效率低。

clipboard.png

【設置瀏覽器採集】

3.Cookie的使用方法

① 配置Cookie
(1)填寫Cookie:
正常狀況下(除JS生成的Cookie外),軟件會自動獲取Cookie。
當軟件沒法獲取到網頁的Cookie時,須要參考下文從瀏覽器尋找Cookie。
(2)禁用Cookie的狀況:
對於不須要Cookie的網站,選擇「禁用Cookie」,可加快採集速度。

clipboard.png

【Cookie配置】
② 如何經過瀏覽器尋找cookie
在獲取不到登陸狀態的時候,能夠經過瀏覽器的F12開發者工具進行手動的獲取Cookie。首先先用瀏覽器打開網頁,點擊F12打開開發者工具,如圖所示。

clipboard.png

接下來點擊network網絡任務列表。

clipboard.png

在瀏覽器上輸入用戶名密碼,點擊登陸

clipboard.png

能夠在network裏面看到出現不少條任務,從中就能夠找到關於登陸的cookie。

clipboard.png

③ 多帳號登陸的Cookie處理
當須要登陸多個帳號來抓取同一個網頁時,能夠在採集列表中設置多個採集任務,採集地址填寫一個地址,填寫不一樣的Cookie信息便可。

4.什麼狀況下禁用JavaScript

對於有些把JavaScript只用於美觀效果的網頁,關閉JavaScript不影響採集數據時,能夠加快採集速度。

clipboard.png

【JavaScript配置】

相關文章
相關標籤/搜索