這幾天因爲業務須要接觸到了數據採集,用的是火車採集器,官網:http://www.locoy.com/baidu/index?baidu。html
這裏以8.0版本做演示,閒話就很少說了,首先,你看到的界面是這樣的:工具
固然,第一次使用的話,左邊這些列表是沒有的,這是項目須要自建的任務列表。那麼,如今從頭開始介紹怎麼操做吧。測試
1.新建任務網站
左邊空白處右鍵--->新建分組spa
而後列表裏多了一個任務組(這裏以測試分組爲例),接下來你能夠繼續在這個文件夾下繼續創建分組或者直接新建任務(根據須要)3d
2.編輯任務code
其實就是你新建任務以後的界面,任務名自定義:htm
接下來就是該工具數據採集的重點了,拿個小本記一下!!!blog
2.1採集網址規則(列表頁)get
看到第一步右邊的添加了沒,點擊添加:
這裏的網址規則分兩種,一是單頁網址,二是分頁網址,舉個栗子:
我要採集這個網站科技論文欄目下的全部文章,因爲文章數目比較多,那麼穩紮列表頁也是有不少的,好比一個列表頁有10篇文章:
http://www.XXXXX.com/tdkj/index.shtml; http://www.XXXXX.com/tdkj/index_2.shtml; http://www.XXXXX.com/tdkj/index_3.shtml; http://www.XXXXX.com/tdkj/index_4.shtml; http://www.XXXXX.com/tdkj/index_5.shtml; http://www.XXXXX.com/tdkj/index_6.shtml; http://www.XXXXX.com/tdkj/index_7.shtml; http://www.XXXXX.com/tdkj/index_8.shtml; http://www.XXXXX.com/tdkj/index_9.shtml;
這裏有10個文章列表頁,很顯然,他們的地址規則是分兩種風格的:第一頁和其餘九頁;
對於第一種風格,固然是選擇"單條網址"(下面就不打碼了):
對於第二種風格:
這樣,文章列表頁網址就所有拿到了,那麼,怎麼從這些文章列表頁獲取具體的文章頁面連接呢?
2.2採集網址規則(內容頁)
咱們來看一下文章列表頁的html結構(拿剛纔的首頁做栗子):
考慮到博客頁面的總體寬度,以及兩張圖共一排對比的必要性,我將圖縮小了,其實你也不必看清圖中的
具體文字,你只要根據上圖體會一下,該html的結構便可;
毋庸置疑,每篇文章的具體內容頁連接就在這個標題中了,不信你看:
很顯然咱們要從DOM結構中獲取這些內容頁連接,那麼就涉及到獲取規則的寫法了,請看:
選擇添加或者修改(若是你以前就有規則的話):
箭頭從上到下,從左到右,須要注意的是,雖然工具給咱們自動生成了規則,但工具畢竟是工具,他自動填充的規則一般都是不靠譜的!!!
那就須要咱們本身分析規則了:
咱們要獲取全部<div class="newslist"> </div>裏面的連接,這裏就要注意了,工具是死的,因此你只能給他下死命令!!!
所以,這裏的規則妍寫成從<div class="newslist"> 到 <p id="pages">,只有這樣,工具纔會從上面的區域查找連接。
下面咱們繼續,已經知道從哪一個區域找連接,接下來就是找哪一種連接了,這時候你要瞄一下,全部詳情頁文章連接長什麼樣,好比:
在列表頁鼠標放到文章標題上你就能夠看到了(恕我囉嗦),而後你大概掃了一下,發現全部列表頁的文章詳情頁連接差很少像下
面這樣:
http://www.chnrailway.com/news/20090606/0606326101.html http://www.chnrailway.com/html/18-03-12/23-45-78.shtml http://www.chnrailway.com/rail/show-9875756/78-78.html
那麼你應該能夠寫出規則了:
http://www.chnrailway.com/(*)/(*)/(*).(*)html
這樣一來,詳情頁的連接你也拿到了,接下來就是設置詳情頁內容的獲取規則了。
2.3採集內容規則(詳情頁內容規則)
看到沒有,在這裏能夠設置標題、內容以及其餘的數據獲取來源,咱們先拿標題來看:
我把右邊這塊放大:
很顯然,這個標題要從DOM結構的<h1> </h1>中拿,具體要根據html來判斷,畢竟不一樣網站的html風格不一樣,因而就將這個規則填入標題
獲取的規則裏,同理,文章內容規則也是同樣,給出一張圖,本身琢磨吧。
2.4測試規則
測試就是說,看看本身以前寫的規則能不能採集到源網站數據。
點擊任意加號,找到一個詳情頁,而後右邊"測試該頁":
若是能夠獲取到你想要的數據,那麼說明你以前寫的規則是正確的!!!
2.5發佈內容設置
數據採集好了,固然要發佈到目標網站啊,那麼:
這個發佈配置能夠自定義配置的(咱們點開WEB發佈配置管理):
這些都是根據你要發佈的網站而定的。
至於最後一項:文件保存以及部分高級設置,能夠不做任何修改,若是你有興趣,請自行研究。
全部的規則、配置都寫好並測試無誤以後,你的這項採集任務能夠說是完成了,那麼接下來就是,執行任務了:
這三個複選框分別表示:採網址、採內容、發佈,若是你已經全選了,那麼
右鍵這條任務,開始任務,他就開始採集數據並上傳數據了,根據數據量的多少,任務執行的時間也會不一樣哦~~~