TrustRank算法
来源:互联网 发布:网络舆情分析师培训 编辑:程序博客网 时间:2024/06/05 19:16
TrustRank是近年来比较受关注的基于链接关系的排名算法。TrustRank 可以翻译为“信任指数”。TrustRank算法是应对轻易操纵Google排名、提升搜索结果质量的作弊手段。实施这一方法极大地增加了短时间操作排名的难度,迅速改善了搜索结果的质量。所有要以TrustRank值作为网页排名的重要依据,页面的TrustRank用来评价其是否具有真正权威性。TrustRank用以将来自Spam的链接与优质内容带来的真正意义上的好评区别开来。
TrustRank算法基于一个基本假设:好的网站很少会链接到坏的网站。反之则不成立,也就是说,坏的网站很少链接到好网站这句话并不成立。正相反,很多垃圾网站会链接到高权威、高信任指数的网站,意图提高自己的信任指数。
基于这个假设,如果能挑选出可以百分之百信任的网站,这些网站的TrustRank评为最高,这些TrustRank最高的网站所链接到的网站信任指数稍微降低,但也会很高。与此类似,第二层被信任的网站链接出去的第三层网站,信任度继续下降。由于种种原因,好的网站也不可避免地会链接到一些垃圾网站,不过离第一层网站点击距离越近,所传递的信任指数越高,离第一级网站点击距离越远,信任指数将依次下降。这样,通过TrustRank算法,就能给所有网站计算出相应的信任指数,离第一层网站越远,成为垃圾网站的可能性就越大。
TrustRank的工作原理:先用人工去识别高质量的页面(即“种子”页面),那么由“种子”页面指向的页面也可能是高质量页面,即其TrustRank也高,与“种子”页面的链接越远,页面的TrustRank越低。TrustRank采用半自动的方法区分垃圾文件和高质量较文件。依靠专家去评估一系列“种子”页面的TrustRank值。一旦确定了“种子”页面,就容易区分好页面和垃圾页面,通过机器分析链接结构来确定其它页面的TrustRank值。
下面给出TrustRank算法的计算示例:
Step 1: Select a small “seed set” of webpages.
Step 2: Identify good webpages from the “seed set”.
Step 3: Create personalization vector based on identification of good webpages.
虽然TrustRank算法最初是作为检测垃圾的方法,但在现在的搜索引擎排名算法中,TrustRank概念使用更为广泛,常常影响大部分网站的整体排名。
参考资料:
Combating Web Spam with TrustRank. Gyongyi, Garcia-Molina, and Pederson, in Proc. VLDB 2004
1 0
- TrustRank算法
- TrustRank算法详细介绍
- 搜索引擎算法研究专题八:TrustRank算法
- PageRank与TrustRank
- <<Combating Web Spam with TrustRank>>的实验
- 算法
- 算法
- 算法
- 算法
- 算法
- 算法
- 算法
- 算法
- 算法
- 算法
- 算法
- 算法
- 算法
- C++学习与实践(三):类
- JavaScript学习 5.2.5 重排序方法
- Ajax学习(三)——XMLHttpRequest对象的五步使用法
- 第十一周项目四:特殊三位数
- 多线程总结
- TrustRank算法
- 正则表达式基础知识01
- asp.net--JQUERY使用
- mysql 开启慢查询
- 贝叶斯集锦:贝叶斯派和频率派的一个例子
- Ext Spket在Eclipse/MyEclipse下的安装和配置(图文教程)
- Sequential Consistency浅谈
- 大竟-历届卷-三-2-古堡算式
- 正则表达式基础知识02