揭秘百度网页消重的方法
来源:互联网 发布:mysql事务原理 编辑:程序博客网 时间:2024/05/16 04:45
网页消重是指在搜索引擎抓取网页的预处理阶段,对抓取回来的网页进行检查,确定抓取的内容不会重复!排除掉一些转帖的重复内容,也是反SPAM机制的一部分。现在大家都知道,百度搜索引擎给原创文章的权重值是相当高的!正因为这样,才有了后来的伪原创的频繁出现。那么,只要我们要知道搜索引擎的消重机制,就可以很容易作出伪原创的文章来!所以基于这个目的,230365的技术小编首次在这里为大家分享一系列的测试的结果!
首先,我知道搜索引擎不可能拿抓取回来的文章和数据库里面的每一篇文章都进行全文比对,他只是对每一篇文章都生成一个指纹,然后进行指纹比对!所以,只要 我们知道他是怎么生成指纹的,我们就可以有意地改变这一指纹来达到伪原创的目的。我查阅了许多相关资料,知道了一些搜索引擎做网页消重的方法,虽然这些方法的具体计算公式我不是很明白,但是基本上可以概括为下面的几个类型。
(1)关于关键词的网页消重。基于前N个关键字的生成指纹,基于关键字附近的文字来生成指纹等……
(2)关网页描述的网页消重。网页描述的MD5
(3)关于标点符号的网页消重。基于文章标点前后的词来生成指纹。
于是我在230365平台做了测试,首先是拿一篇别人的帖子,把主关键词(SEO,博客)替换成(培训,BLOG)同样在发表出去,结果是不收录。 我觉得是不是改的不够彻底,因为百度可以认出BLOG是博客。于是我又把(培训,BLOG)全部替换成(测试,原创)这样整篇文章的关键字都变成了测试和原创。再次发表出去,结果还是不收录。所以,基于关键词的网页消肿可能性不大!
所以,我把目光投在了基于网页描述的网页消重,把第一段的文章调换了一下,改变了网页的描述,结果还是不收录!最后,我把这篇文章的所有逗号删除,句号换成了感叹号,发表出去!结果5分钟就收录了!两篇文章的所有文字一摸一样,就是改变了标点符号,前者不收录,后者收录了!这证明百度是基于标点符号的网页消重。
经过以上测试,我得出初步的结论,百度是基于标点符号的网页消重,也就是说,大家以后伪原创只需要把标点符号位置改了,或者把标点前后的文字改了! 当然,这个只是我的一个初步的结论,到底是不是真的如此还需要大家来论证!特此说明:本测试只针对百度,不包括百度外的所搜引擎!
首先,我知道搜索引擎不可能拿抓取回来的文章和数据库里面的每一篇文章都进行全文比对,他只是对每一篇文章都生成一个指纹,然后进行指纹比对!所以,只要 我们知道他是怎么生成指纹的,我们就可以有意地改变这一指纹来达到伪原创的目的。我查阅了许多相关资料,知道了一些搜索引擎做网页消重的方法,虽然这些方法的具体计算公式我不是很明白,但是基本上可以概括为下面的几个类型。
(1)关于关键词的网页消重。基于前N个关键字的生成指纹,基于关键字附近的文字来生成指纹等……
(2)关网页描述的网页消重。网页描述的MD5
(3)关于标点符号的网页消重。基于文章标点前后的词来生成指纹。
于是我在230365平台做了测试,首先是拿一篇别人的帖子,把主关键词(SEO,博客)替换成(培训,BLOG)同样在发表出去,结果是不收录。 我觉得是不是改的不够彻底,因为百度可以认出BLOG是博客。于是我又把(培训,BLOG)全部替换成(测试,原创)这样整篇文章的关键字都变成了测试和原创。再次发表出去,结果还是不收录。所以,基于关键词的网页消肿可能性不大!
所以,我把目光投在了基于网页描述的网页消重,把第一段的文章调换了一下,改变了网页的描述,结果还是不收录!最后,我把这篇文章的所有逗号删除,句号换成了感叹号,发表出去!结果5分钟就收录了!两篇文章的所有文字一摸一样,就是改变了标点符号,前者不收录,后者收录了!这证明百度是基于标点符号的网页消重。
经过以上测试,我得出初步的结论,百度是基于标点符号的网页消重,也就是说,大家以后伪原创只需要把标点符号位置改了,或者把标点前后的文字改了! 当然,这个只是我的一个初步的结论,到底是不是真的如此还需要大家来论证!特此说明:本测试只针对百度,不包括百度外的所搜引擎!
- 揭秘百度网页消重的方法
- 百度的“知心搜索”揭秘
- javaweb项目给jsp网页添加百度编辑器的方法
- 简单使用网页中插入百度地图的方法
- 揭秘百度蜘蛛的七点特性
- 揭秘百度是如何判断原创的
- 揭秘百度蜘蛛的七大特性!
- PHP中重定向网页跳转页面的方法
- 网页常用的301重定向和302重定向的实现方法
- python 网页消重
- HttpWebRequest获取百度的网页
- 网页重构的步骤
- 网页添加百度、谷歌地图方法
- 五大网页重定向方法
- 李彦宏揭秘:百度为什么推出自己的网站
- 揭秘:腾讯、阿里和百度的薪资待遇
- 揭秘刷百度权重那些不为人知的事情
- 百度竞价赚钱攻略,揭秘竞价不公开的秘密
- seo基础入门问问问之二内容质量、更新频率、相关性
- C++传值,传址,引用的区别
- Android 看内存的方式
- restrict关键字
- 安装Zend Studio的方法---新手
- 揭秘百度网页消重的方法
- C语言中的整型提升(integral promotion)
- SEO新人如何做网站诊断和策划
- 一种流传甚广的诡异的合成方法的一点解释
- myeclipse报错: java compiler level does not match the version of the installed java project facet
- SBT 模板
- HDU 4704 Sum(快速幂+费马小定理)
- TIME_WAIT引起Cannot assign requested address报错
- 2013年8月23日、1 ^1+1不等2、哈哈