火車頭數據採集工具

這幾天因爲業務須要接觸到了數據採集,用的是火車採集器,官網:http://www.locoy.com/baidu/index?baiduhtml

這裏以8.0版本做演示,閒話就很少說了,首先,你看到的界面是這樣的:工具

固然,第一次使用的話,左邊這些列表是沒有的,這是項目須要自建的任務列表。那麼,如今從頭開始介紹怎麼操做吧。測試

1.新建任務網站

左邊空白處右鍵--->新建分組spa

而後列表裏多了一個任務組(這裏以測試分組爲例),接下來你能夠繼續在這個文件夾下繼續創建分組或者直接新建任務(根據須要)3d

2.編輯任務code

其實就是你新建任務以後的界面,任務名自定義:htm

接下來就是該工具數據採集的重點了,拿個小本記一下!!!blog

2.1採集網址規則(列表頁)get

看到第一步右邊的添加了沒,點擊添加:

這裏的網址規則分兩種,一是單頁網址,二是分頁網址,舉個栗子:

我要採集這個網站科技論文欄目下的全部文章,因爲文章數目比較多,那麼穩紮列表頁也是有不少的,好比一個列表頁有10篇文章:

http://www.XXXXX.com/tdkj/index.shtml;
http://www.XXXXX.com/tdkj/index_2.shtml;
http://www.XXXXX.com/tdkj/index_3.shtml;
http://www.XXXXX.com/tdkj/index_4.shtml;
http://www.XXXXX.com/tdkj/index_5.shtml;
http://www.XXXXX.com/tdkj/index_6.shtml;
http://www.XXXXX.com/tdkj/index_7.shtml;
http://www.XXXXX.com/tdkj/index_8.shtml;
http://www.XXXXX.com/tdkj/index_9.shtml;

這裏有10個文章列表頁,很顯然,他們的地址規則是分兩種風格的:第一頁和其餘九頁;

對於第一種風格,固然是選擇"單條網址"(下面就不打碼了):

對於第二種風格:

這樣,文章列表頁網址就所有拿到了,那麼,怎麼從這些文章列表頁獲取具體的文章頁面連接呢?

2.2採集網址規則(內容頁)

咱們來看一下文章列表頁的html結構(拿剛纔的首頁做栗子):

考慮到博客頁面的總體寬度,以及兩張圖共一排對比的必要性,我將圖縮小了,其實你也不必看清圖中的

具體文字,你只要根據上圖體會一下,該html的結構便可;

毋庸置疑,每篇文章的具體內容頁連接就在這個標題中了,不信你看:

很顯然咱們要從DOM結構中獲取這些內容頁連接,那麼就涉及到獲取規則的寫法了,請看:

選擇添加或者修改(若是你以前就有規則的話):

箭頭從上到下,從左到右,須要注意的是,雖然工具給咱們自動生成了規則,但工具畢竟是工具,他自動填充的規則一般都是不靠譜的!!!

那就須要咱們本身分析規則了:

咱們要獲取全部<div class="newslist"> </div>裏面的連接,這裏就要注意了,工具是死的,因此你只能給他下死命令!!!

所以,這裏的規則妍寫成從<div class="newslist"> 到 <p id="pages">,只有這樣,工具纔會從上面的區域查找連接。

下面咱們繼續,已經知道從哪一個區域找連接,接下來就是找哪一種連接了,這時候你要瞄一下,全部詳情頁文章連接長什麼樣,好比:

在列表頁鼠標放到文章標題上你就能夠看到了(恕我囉嗦),而後你大概掃了一下,發現全部列表頁的文章詳情頁連接差很少像下

面這樣:

http://www.chnrailway.com/news/20090606/0606326101.html
http://www.chnrailway.com/html/18-03-12/23-45-78.shtml
http://www.chnrailway.com/rail/show-9875756/78-78.html

那麼你應該能夠寫出規則了:

http://www.chnrailway.com/(*)/(*)/(*).(*)html

這樣一來,詳情頁的連接你也拿到了,接下來就是設置詳情頁內容的獲取規則了。

2.3採集內容規則(詳情頁內容規則)

看到沒有,在這裏能夠設置標題、內容以及其餘的數據獲取來源,咱們先拿標題來看:

我把右邊這塊放大:

很顯然,這個標題要從DOM結構的<h1>  </h1>中拿,具體要根據html來判斷,畢竟不一樣網站的html風格不一樣,因而就將這個規則填入標題

獲取的規則裏,同理,文章內容規則也是同樣,給出一張圖,本身琢磨吧。

2.4測試規則

測試就是說,看看本身以前寫的規則能不能採集到源網站數據。

點擊任意加號,找到一個詳情頁,而後右邊"測試該頁":

若是能夠獲取到你想要的數據,那麼說明你以前寫的規則是正確的!!!

2.5發佈內容設置

數據採集好了,固然要發佈到目標網站啊,那麼:

這個發佈配置能夠自定義配置的(咱們點開WEB發佈配置管理):

這些都是根據你要發佈的網站而定的。

至於最後一項:文件保存以及部分高級設置,能夠不做任何修改,若是你有興趣,請自行研究。

全部的規則、配置都寫好並測試無誤以後,你的這項採集任務能夠說是完成了,那麼接下來就是,執行任務了:

這三個複選框分別表示:採網址、採內容、發佈,若是你已經全選了,那麼

右鍵這條任務,開始任務,他就開始採集數據並上傳數據了,根據數據量的多少,任務執行的時間也會不一樣哦~~~

相關文章
相關標籤/搜索