到不少網友都爲織夢(DEDECMS)的採集教程頭疼,的確,官方出的教程太籠統了,什麼都沒說,換個網站你什麼都作不了,這個教程是最詳盡的教程,讓你一看即會!html
第一步、咱們打開織夢後臺點擊採集——採集節點管理——增長新節點正則表達式
第二步、這裏咱們以採集普通文章爲例,咱們選擇普通文章,而後肯定網站
第三步、進入了採集的設置頁面,填寫節點名稱。編碼
第四步、打開你想要採集的文章列表頁。spa
這裏以這個網站爲例,http://www.nanmafan.com/xunyicao/打開這個頁面,htm
右鍵——查看源文件找到目標頁面編碼,就在charset後面)教程
第五步、填寫頁面的基本信息,填完後如圖圖片
第六步、填寫列表網址獲取規則看看文章列表第一頁的地址。ip
http://www.nanmafan.com/xunyicao/list_49_1.html源碼
對比第二頁的地址http://www.nanmafan.com/xunyicao/list_49_2.html
咱們發現了他們除了49_後面的數字不同,其餘的都同樣,因此咱們能夠這樣寫
http://www.nanmafan.com/xunyicao/list_49_(*).html
就是把1換成了(*)由於這裏只有2頁,因此咱們就填從1到2每頁遞增固然是1了,2-1...是等於1吧
這裏咱們就填寫完了
可能你們採集的有些列表沒有規則,那就只有手工指定列表網址了,如圖
每行寫一個頁面地址
第七步、填寫文章網址匹配規則了,回到文章列表頁
右鍵查看源文件找到區域開始的HTML,就是找文章列表開始的標誌。
咱們很容易的找到了如圖中的「新聞列表」。從這裏開始,後面就是文章列表裏,再找文章列表結束的HTML
就是這個了,一個很容易找到的標誌
若是連接中含有圖片:
不處理採集爲縮略圖這裏根據本身的須要選擇
第八步、對區域網址進行再次篩選:
(使用正則表達式)必須包含:(優先級高於後者)
不能包含:打開源文件,咱們能夠很清楚的看到,文章連接都是以.html結束的因此,咱們在必須包含後面填.html若是遇到有些列表很麻煩,還能夠填寫後面的不能包含
點擊保存設置進入下一步,能夠看到咱們得到的文章網址
看到這些就是對的了,咱們保存信息進入下一步設置內容字段獲取規則
咱們看看文章有沒有分頁,隨便進入一篇文章看看。。咱們看到這裏的文章沒有分頁
因此這裏的咱們就默認了
咱們如今來找文章標題等等隨便進入一篇文章,右鍵查看源文件
看看這些
依照源碼填寫
第九步、填寫文章內容的開始,結束和上面的同樣,找到開始和結束標誌.
開始部分如圖
結束部分如圖
最後填寫如圖
第十步、你想過濾文章中的什麼內容就到過濾規則裏寫吧,好比要過濾文章中的圖片,
選擇經常使用規則,如圖
再勾選IMG,如圖
而後肯定
這樣咱們就把正文中的圖片過濾了
第十一步、設置完畢後點保存設置並預覽,如圖
這樣一個採集規則就寫好了,很簡單吧有些網站很難寫,可要多下點功夫了哦
咱們點保存並開始採集——開始採集網頁一會的功夫就採集完了
看看咱們採集到的文章
最後、導出數據
首先選擇要導入到的欄目,按「請選擇」那裏便可在彈出的窗口中選擇你須要導入的欄目發佈選項這裏通常默認便可,除非你不想立刻發佈。每批導入默認是30條,這裏修改與否都無所謂,附帶選項通常選「排除重複標題」,至於自動生成HTML那個選項建議先別生成,由於咱們還要去批量提取摘要和關鍵字。
文章標題
匹配規則:<title>[內容]</title>
過濾規則:{dede:trimreplace=""}_XXX網站{/dede:trim}
1.去除超連接,這種最經常使用。
{dede:trim replace=''}<a([^>]*)>{/dede:trim}
{dede:trim replace=''}</a>{/dede:trim}
若是填成這樣,那就把連接的文本也一塊兒去掉了
{dede:trim replace=''}<a([^>]*)>(.*)</a>{/dede:trim}
2.過濾JS調用廣告,好比GG的廣告,就加個這樣的:
{dede:trim replace=''}<script([^>]*)>(.*)</script>{/dede:trim}
3.過濾div標籤。
這個很重要,若是沒過濾乾淨則可能使發佈出來的文章版面錯位, 目前大多數遇到採集後錯位的緣由在此。
{dede:trim replace=''}<div([^.]*)>{/dede:trim}
{dede:trim replace=''}</div>{/dede:trim}
有的時候也須要這樣子過濾:
{dede:trim replace=''}<div 選擇器>(.*)</div>{/dede:trim}
4.其它的過濾規則能夠照以上規律進行推出。
5.過濾摘要和關鍵字使用,常常要用到。
{dede:trim replace=''}{/dede:trim}
6.簡單替換。
{dede:trim replace=’替換後的詞語’}要替換的詞語{/dede:trim}
7.去掉src
{dede:trim replace=''}src="([^"]*)"{/dede:trim}
指定value值便可實現:
{dede:item field='writer' value='小軍' isunit=''' isdown=''}
{dede:match}{/dede:match}
{dede:function}{/dede:function}
{/dede:item}
{dede:item field='source' value='軍事網' isunit='' isdown=''}
{dede:match}{/dede:match}
{dede:function}{/dede:function}
{/dede:item}
在「內容分頁導航所在的區域匹配規則:」,填寫規則,如 <ul class="pages">[內容]</ul>,而後選擇「所有列出的分頁列表」。
遭遇情景:若是選擇「上下頁形式或不完整的分頁列表」,列表頁的全部文章內容所有一塊兒寫入