揭秘百度网页消重的方法

来源:互联网 发布:mysql事务原理 编辑:程序博客网 时间:2024/05/16 04:45
       网页消重是指在搜索引擎抓取网页的预处理阶段,对抓取回来的网页进行检查,确定抓取的内容不会重复!排除掉一些转帖的重复内容,也是反SPAM机制的一部分。现在大家都知道,百度搜索引擎给原创文章的权重值是相当高的!正因为这样,才有了后来的伪原创的频繁出现。那么,只要我们要知道搜索引擎的消重机制,就可以很容易作出伪原创的文章来!所以基于这个目的,230365的技术小编首次在这里为大家分享一系列的测试的结果!


    首先,我知道搜索引擎不可能拿抓取回来的文章和数据库里面的每一篇文章都进行全文比对,他只是对每一篇文章都生成一个指纹,然后进行指纹比对!所以,只要 我们知道他是怎么生成指纹的,我们就可以有意地改变这一指纹来达到伪原创的目的。我查阅了许多相关资料,知道了一些搜索引擎做网页消重的方法,虽然这些方法的具体计算公式我不是很明白,但是基本上可以概括为下面的几个类型。
    (1)关于关键词的网页消重。基于前N个关键字的生成指纹,基于关键字附近的文字来生成指纹等……
    (2)关网页描述的网页消重。网页描述的MD5
    (3)关于标点符号的网页消重。基于文章标点前后的词来生成指纹。
    于是我在230365平台做了测试,首先是拿一篇别人的帖子,把主关键词(SEO,博客)替换成(培训,BLOG)同样在发表出去,结果是不收录。 我觉得是不是改的不够彻底,因为百度可以认出BLOG是博客。于是我又把(培训,BLOG)全部替换成(测试,原创)这样整篇文章的关键字都变成了测试和原创。再次发表出去,结果还是不收录。所以,基于关键词的网页消肿可能性不大!
    所以,我把目光投在了基于网页描述的网页消重,把第一段的文章调换了一下,改变了网页的描述,结果还是不收录!最后,我把这篇文章的所有逗号删除,句号换成了感叹号,发表出去!结果5分钟就收录了!两篇文章的所有文字一摸一样,就是改变了标点符号,前者不收录,后者收录了!这证明百度是基于标点符号的网页消重。
   经过以上测试,我得出初步的结论,百度是基于标点符号的网页消重,也就是说,大家以后伪原创只需要把标点符号位置改了,或者把标点前后的文字改了! 当然,这个只是我的一个初步的结论,到底是不是真的如此还需要大家来论证!特此说明:本测试只针对百度,不包括百度外的所搜引擎!
原创粉丝点击