dedecms採集過濾規則 萬能採集過濾代碼

dedecms自帶的採集系統確實很不錯,能夠免去一些手工添加信息的麻煩,設置一下dede採集規則、採集點,而後點採集,OK,幾百篇文章就搞定了!呵呵,確實很省事的!下面介紹幾種經常使用採集規則的過濾方法:html

應用示例一:dedecms過濾標題空格
常常在採集文章的時候,標題文字裏面有空格,採回來後應用非常麻煩,因此須要在標題處過濾處添加下面正則過濾微信

{dede:trim} {/dede:trim}   注意:中間是有一個空格動畫

應用示例二:來源做者中鏈接的過濾
在採集文章的時候,有的網站系統裏面做者或者來源處都帶有鏈接,直接採集的話將鏈接採集回來了,而後因爲這兩個字段有限制,一般會形成須要採集的內容沒有采集回來,因此須要在過濾處添加下面正則過濾。網站

1,若是要保留dedecms連接中的文字:
{dede:trim}<a([^>]*)>{/dede:trim}
{dede:trim}</a>{/dede:trim}spa

2,若是去掉連接中的文字:
{dede:trim}<a ([^>]*)>([^<]*)</a>{/dede:trim}視頻

應用示例三:文章內容中鏈接以及其餘廣告代碼的過濾
這個就不用說了,當須要對全部東西過濾的時候,直接用上面全部的代碼過濾就能夠,可是實際應用中,咱們只須要對鏈接、動畫、調用等進行過濾。(這個須要按照對方內容裏面具體含有什麼代碼來具體操做)
通常的只有連接,使用二中的代碼進行過濾就能夠了,可是實際上通常的網站如今都在內容裏面加有廣告等,因此採起下面的過濾正則就能夠完成過濾:htm

{dede:trim}<a([^>]*)>([^<]*)</a>{/dede:trim}
{dede:trim}<IFRAME([^>]*)>([^>]*)</IFRAME>{/dede:trim}
{dede:trim}<object([^>]*)>([^>]*)</object>{/dede:trim}
{dede:trim}<script([^>]*)>([^>]*)</script>{/dede:trim}ip

過濾div能夠用
{dede:trim}]*)>{/dede:trim}
{dede:trim}
{/dede:trim}get

過濾js用下面這個
{dede:trim}]*)>([^<]*){/dede:trim}iframe

過濾未知變量字符
固定(.*)固定

應用示例四:過濾GG廣告代碼
其實這個就是在上面的內容過濾,可是不少論壇裏的網友常常問這個,因此單獨做爲一個應用列出來:

{dede:trim}<script([^>]*)>([^>]*)</script>{/dede:trim}

下面是在綜合論壇上網友的各類正則的一個dedecms規則過濾全集:

{dede:trim}<param([^>]*)>{/dede:trim}
{dede:trim}<embed([^>]*)>([^>]*)</embed>{/dede:trim}
{dede:trim}<embed([^>]*)>{/dede:trim}
{dede:trim}</embed>{/dede:trim}
{dede:trim}<object([^>]*)>([^>]*)</object>{/dede:trim}
{dede:trim}<object([^>]*)>{/dede:trim}
{dede:trim}</object>{/dede:trim}
{dede:trim}<OBJECT([^>]*)>([^>]*)</OBJECT>{/dede:trim}
{dede:trim}<OBJECT([^>]*)>{/dede:trim}
{dede:trim}</OBJECT>{/dede:trim}
{dede:trim}<iframe([^>]*)>([^>]*)</iframe>{/dede:trim}
{dede:trim}<iframe([^>]*)>{/dede:trim}
{dede:trim}</iframe>{/dede:trim}
{dede:trim}<IFRAME([^>]*)>([^>]*)</IFRAME>{/dede:trim}
{dede:trim}<IFRAME([^>]*)>{/dede:trim}
{dede:trim}</IFRAME>{/dede:trim}
{dede:trim}<font([^>]*)>([^<]*)</font>{/dede:trim}
{dede:trim}<font([^>]*)>{/dede:trim}
{dede:trim}</font>{/dede:trim}
{dede:trim}<a([^>]*)>([^<]*)</a>{/dede:trim}
{dede:trim}<a([^>]*)>{/dede:trim}
{dede:trim}</a>{/dede:trim}
{dede:trim}<td([^>]*)>([^>]*)</td>{/dede:trim}
{dede:trim}<td([^>]*)>{/dede:trim}
{dede:trim}</td>{/dede:trim}
{dede:trim}<tr([^>]*)>([^>]*)</tr>{/dede:trim}
{dede:trim}<tr([^>]*)>{/dede:trim}
{dede:trim}</tr>{/dede:trim}
{dede:trim}<tbody([^>]*)>([^>]*)</tbody>{/dede:trim}
{dede:trim}<tbody>{/dede:trim}
{dede:trim}</tbody>{/dede:trim}
{dede:trim}<table([^>]*)>([^>]*)</table>{/dede:trim}
{dede:trim}<table([^>]*)>{/dede:trim}
{dede:trim}</table>{/dede:trim}
{dede:trim}<img([^>]*)>{/dede:trim}
{dede:trim}<span([^>]*)>{/dede:trim}
{dede:trim}</span>{/dede:trim}
{dede:trim} {/dede:trim}
{dede:trim}<stong>{/dede:trim}
{dede:trim}</stong>{/dede:trim}

好了,上面四種應用基本上涵蓋了採集的各類應用,掌握了這個,過濾基本上就不用求人了!下面教你們一個更簡單的方法,把下面的過濾規則複製到你那裏去,幾乎就能夠處理全部的問題了,固然也能夠本身分析一下。
{dede:trim}<span(.*)>{/dede:trim}
{dede:trim}</span>{/dede:trim}
{dede:trim}<div(.*)>{/dede:trim}
{dede:trim}</div>{/dede:trim}
{dede:trim}<li>{/dede:trim}
{dede:trim}</li>{/dede:trim}
{dede:trim}<ul>{/dede:trim}
{dede:trim}</ul>{/dede:trim}
{dede:trim}<font(.*)>{/dede:trim}
{dede:trim}</font>{/dede:trim}
{dede:trim}<table(.*)>{/dede:trim}
{dede:trim}</table>{/dede:trim}
{dede:trim}<tbody(.*)>{/dede:trim}
{dede:trim}</tbody>{/dede:trim}
{dede:trim}<tr(.*)>{/dede:trim}
{dede:trim}</tr>{/dede:trim}
{dede:trim}<td(.*)>{/dede:trim}
{dede:trim}</td>{/dede:trim}
{dede:trim}<a(.*)>{/dede:trim}
{dede:trim}</a>{/dede:trim}
{dede:trim}<iframe(.*)</iframe>{/dede:trim}
{dede:trim}<style(.*)</style>{/dede:trim}
{dede:trim}<script(.*)</script>{/dede:trim}
{dede:trim}<option(.*)</option>{/dede:trim}
{dede:trim}<select(.*)</select>{/dede:trim}
{dede:trim}<embed(.*)>{/dede:trim}
{dede:trim}</embed>{/dede:trim}
{dede:trim}<param(.*)</param>{/dede:trim}
{dede:trim}<object(.*)</object>{/dede:trim}

上面這一段萬能採集過濾代碼,不能用來採集帶有視頻的頁面,由於已通過濾了視頻,最後的四行是過濾掉視頻的。若是你確認要採集視頻,那就去掉最後四行。

 

PS:若是單純的去掉含有特定文字的,好比每一個文章結尾都有固定的套路,這些東西不想採集的話,能夠過濾,參考規則:

好比有個網站每篇文章結尾都是:

<p>標籤: <a href='/tag/aizibingshizhi_13_1.html' target=_blank>艾滋病試紙</a>  本文由<a href="http://www.mytest.cn/">加油吧</a>提供,艾滋病諮詢或購買艾滋病試紙請聯繫QQ:88888,微信:88888,咱們將熱誠爲您服務。</p>

{dede:trim replace=""}<p>標籤:(.*)</p>{/dede:trim}

相關文章
相關標籤/搜索