任務:html
採集某一個指定頁面的文章包括(標題、圖片、描述、內容)導入到本身網站數據庫對應欄目(欄目id爲57),數據庫字段分別(title,thumb,descrption,content)。數據庫
頁面裏面第一張圖做爲文章縮略圖,這邊一個獲取縮略圖名稱並添加上對應網站路徑放入數據庫thumb字段,另外一個是下載下本地,統一上傳到指定文件夾,(固然看軟件能夠直接ftp,目前還沒弄,後期弄了會補充)測試
一、新建分組--新建任務網站
二、添加網址+ 編輯獲取網址的規則spa
選擇範圍在 ul 裏面的 li 裏面的連接,注意排除重複地址,能夠點擊下面測試網址採集獲取。3d
能夠看到有采集到的文章連接了。htm
三、採集內容規則blog
我這邊須要採集下面圖上展現數據(catid是欄目id,能夠將採集到的數據放入對應欄目,設置固定值就好)圖片
着重說下內容和圖片的採集,標題和描述同理內容採集it
內容採集:
打開一個採集的文章頁面,查看源代碼(禁了右鍵的f11 或者在網址前面加上 view-source: 同樣能夠查看):
選中文章開頭一個位置,截取一段在ctrl+f 搜下是否惟一一段,如果就能夠放在位置下圖1處,結尾同開頭同樣。
我截取內容不想裏面還帶有連接圖片能夠數據處理,添加--html標籤排除--選好肯定--肯定
還有須要下載頁面圖片,勾選和填寫下面選項
圖片採集:
(1)選中範圍和內容同樣(文章內圖片)
(2)數據處理選 提取第一張圖片 內容是:http://www.xxx.com/2017/33/aa.jpg
(3)只要aa.jpg,正則過濾 ,獲取內容:aa.jpg
(4)數據庫存儲有前綴,添加上, upload/xxxxx/
找一個頁面測試一下,能夠看到對應項目都獲取到了。
四、發佈內容設置,這裏以方式三發佈到數據庫爲例子,編輯後回到這邊勾選剛定義的模塊就好:
五、我須要保存圖片到本地,要設置下保存文件的路徑(ftp後續會試着使用)。
六、保存,查看剛新建的任務,右鍵 開始任務運行,這邊就能夠看到文字和圖片都下載下來了,數據庫裏面也能夠看到了。