dede采集过滤规则

来源:互联网 发布:php能做幻灯片吗 编辑:程序博客网 时间:2024/05/01 06:32
dede采集基础教程--过滤规则  
在这里,我会分批分段的给大家介绍一些dede的使用方法心得.主要是给一些刚刚接触dede的站长朋友们指个路.
dede的基本功能在他们的技术文档里面有很详尽的说明,如果花点时间去查看,应该很快就会熟悉起来.这一次我
给大家介绍的是dede采集功能的使用,dede的采集功能很受站长们欢迎,但一些刚接触dede的朋友可能会对这个
功能感到很陌生,很抗绝. 由于时间的关系,我会陆续的把这个功能分批介绍给大家. 
经过前面三篇的介绍,对于dede的采集我们也有基本的了解和操作能力,对于采集简单的内容来说也足够用了。
然而对于大多数网站来说,现在广告是网站收入的一个重要来源,因此在网页中常会嵌入广告代码。我们在采集
的时候,如何将其过滤掉,从而避免了自己帮别人免费挂广告呢?又例如某些文章里面某些关键词有了他们自己
网站上的其他文章链接,你是否愿意让你辛苦采集回来的文章里包含了他的链接?这一切,只需简单的过滤规则,
即可给你一篇干净的文章。 
dede的过滤规则并不难写,其写法如下面 {dede:trim}这里就是要过滤的内容{/dede:trim} 
如果你要过滤的内容比较简单的代码,完全可以直接在―{dede:trim}‖和―{/dede:trim}‖之间写上,如果比较复杂的就要用到正则了。 


1、例如采集中去除内容里的超链接的规则如下: 
{dede:trim}<a([^>]*)>{/dede:trim} {dede:trim}</a>{/dede:trim} 
假如要将所有超链接内容都去除,规则是:{dede:trim}<a([^>]*)>([^<]*)</a>{/dede:trim} 这两个规则的不同通过下面代码来解释 
例如文章代码中包含着如下内容:<a href="#">超链接</a> 
通过第一个规则,我们采集来的结果是:超链接 
通过第二个规则,我们采集来的结果是:空白,即是将所有内容都过滤掉了。 


2、过滤广告 
对于广告来说,过滤规则就得针对html中看到的内容使用规则了,例如某些广告仅仅是引用某个JS文件,例如 
<script src=’/plus/ad_js.php?aid=4′ language=’javascript’></script> 这样的规则只需 
{dede:trim}<script(.*)>{/dede:trim} 
{dede:trim}</script>{/dede:trim} 
如果某些广告的内容是JS代码写在<script></script>区间里的,例如GG的广告,那么过滤规则应该是: 
{dede:trim}<script>(.*)</script>{/dede:trim}


 3、下面是一些常识用的过滤规则 {dede:trim}<!–(.*)–>{/dede:trim} 
{dede:trim}<select([^>]*)>([^>]*)</select>{/dede:trim} 
{dede:trim}<option([^>]*)>([^>]*)</option>{/dede:trim} 
{dede:trim}<select([^>]*)>{/dede:trim} 


{dede:trim}</select>{/dede:trim} 
{dede:trim}<param([^>]*)>{/dede:trim} 


{dede:trim}<embed([^>]*)>([^>]*)</embed>{/dede:trim} 


{dede:trim}<embed([^>]*)>{/dede:trim} 
{dede:trim}</embed>{/dede:trim} 


{dede:trim}<object([^>]*)>([^>]*)</object>{/dede:trim} 
{dede:trim}<object([^>]*)>{/dede:trim} 
{dede:trim}</object>{/dede:trim} 


{dede:trim}<OBJECT([^>]*)>([^>]*)</OBJECT>{/dede:trim} 
{dede:trim}<OBJECT([^>]*)>{/dede:trim} 
{dede:trim}</OBJECT>{/dede:trim} 
{dede:trim}<iframe([^>]*)>([^>]*)</iframe>{/dede:trim} 
{dede:trim}<iframe([^>]*)>{/dede:trim} {dede:trim}</iframe>{/dede:trim} 
{dede:trim}<IFRAME([^>]*)>([^>]*)</IFRAME>{/dede:trim} {dede:trim}<IFRAME([^>]*)>{/dede:trim} {dede:trim}</IFRAME>{/dede:trim} 
{dede:trim}<font([^>]*)>([^<]*)</font>{/dede:trim} {dede:trim}<font([^>]*)>{/dede:trim} {dede:trim}</font>{/dede:trim} 
{dede:trim}<a([^>]*)>([^<]*)</a>{/dede:trim} {dede:trim}<a([^>]*)>{/dede:trim} {dede:trim}</a>{/dede:trim} 
{dede:trim}<td([^>]*)>([^>]*)</td>{/dede:trim} {dede:trim}<td([^>]*)>{/dede:trim} 
{dede:trim}</td>{/dede:trim} 
{dede:trim}<tr([^>]*)>([^>]*)</tr>{/dede:trim} {dede:trim}<tr([^>]*)>{/dede:trim} {dede:trim}</tr>{/dede:trim} 
{dede:trim}<tbody([^>]*)>([^>]*)</tbody>{/dede:trim} {dede:trim}<tbody>{/dede:trim} {dede:trim}</tbody>{/dede:trim} 
{dede:trim}<table([^>]*)>([^>]*)</table>{/dede:trim} {dede:trim}<table([^>]*)>{/dede:trim} {dede:trim}</table>{/dede:trim} 
{dede:trim}<span([^>]*)>{/dede:trim} {dede:trim}</span>{/dede:trim} 
{dede:trim}</IFRAME>{/dede:trim} 
{dede:trim}<script>(.*)</script>{/dede:trim} {dede:trim}<script(.*)>{/dede:trim} {dede:trim}</script>{/dede:trim}


 ———————————– 对于下面这些规则就请慎用 ———————————– 


{dede:trim}<div(.*)>{/dede:trim} 
{dede:trim}</div>{/dede:trim} {dede:trim}<stong>{/dede:trim} {dede:trim}</stong>{/dede:trim} 
{dede:trim}<div(.*)>(.*)</div>{/dede:trim} {dede:trim}<center(.*)>{/dede:trim} 
{dede:trim}</center>{/dede:trim} {dede:trim}<p(.*)>{/dede:trim} 
{dede:trim}</p>{/dede:trim} 
{dede:trim}<span(.*)>{dede:trim} 
{dede:trim}</span>{dede:trim} 
{dede:trim}<img(.*)>{/dede:trim} 
{dede:trim}<div(.*)>{/dede:trim} 
{dede:trim}</div>{/dede:trim} 
以上就是本篇要介绍的内容,正则也许并不是每处都用得上,但当你了解其写法后,自己也可以写出一些更加适合自己使用的规则出来。 
这些都是非常使用又非常容易理解的过滤规则,如果你想让你的收集更加简便,更加人性化.这些就要掌握好喔. 
0 0
原创粉丝点击