火車頭採集器採集文章使用教程實例

任務:html

採集某一個指定頁面的文章包括(標題、圖片、描述、內容)導入到本身網站數據庫對應欄目(欄目id爲57),數據庫字段分別(title,thumb,descrption,content)。數據庫

頁面裏面第一張圖做爲文章縮略圖,這邊一個獲取縮略圖名稱並添加上對應網站路徑放入數據庫thumb字段,另外一個是下載下本地,統一上傳到指定文件夾,(固然看軟件能夠直接ftp,目前還沒弄,後期弄了會補充)測試

一、新建分組--新建任務網站

 

二、添加網址+ 編輯獲取網址的規則spa

選擇範圍在 ul 裏面的 li 裏面的連接,注意排除重複地址,能夠點擊下面測試網址採集獲取。3d

能夠看到有采集到的文章連接了。htm

 

三、採集內容規則blog

我這邊須要採集下面圖上展現數據(catid是欄目id,能夠將採集到的數據放入對應欄目,設置固定值就好)圖片

着重說下內容和圖片的採集,標題和描述同理內容採集it

 內容採集:

打開一個採集的文章頁面,查看源代碼(禁了右鍵的f11 或者在網址前面加上 view-source: 同樣能夠查看):

選中文章開頭一個位置,截取一段在ctrl+f 搜下是否惟一一段,如果就能夠放在位置下圖1處,結尾同開頭同樣。

我截取內容不想裏面還帶有連接圖片能夠數據處理,添加--html標籤排除--選好肯定--肯定

 

還有須要下載頁面圖片,勾選和填寫下面選項

 

圖片採集:

(1)選中範圍和內容同樣(文章內圖片)

(2)數據處理選 提取第一張圖片  內容是:http://www.xxx.com/2017/33/aa.jpg

(3)只要aa.jpg,正則過濾  ,獲取內容:aa.jpg

(4)數據庫存儲有前綴,添加上, upload/xxxxx/

找一個頁面測試一下,能夠看到對應項目都獲取到了。

 

四、發佈內容設置,這裏以方式三發佈到數據庫爲例子,編輯後回到這邊勾選剛定義的模塊就好:

 

 五、我須要保存圖片到本地,要設置下保存文件的路徑(ftp後續會試着使用)。

 

六、保存,查看剛新建的任務,右鍵 開始任務運行,這邊就能夠看到文字和圖片都下載下來了,數據庫裏面也能夠看到了。

相關文章
相關標籤/搜索