page-rank计算问题
来源:互联网 发布:苟利国家生死已网络梗 编辑:程序博客网 时间:2024/05/16 10:12
大家上网最常用的一个工具是谷歌搜索,比如搜索“笑话”,会返回与笑话相关的网页链接结果,供你选择。问题来了,搜索是如何进行的,机器怎么去尽力找到跟你搜索信息相关的网页的呢?
Page-Rank
谷歌公司对网页进行重要性评估,并且基于此计算网页等级并给出搜索结果。
网页重要性评估
Google根据链接来衡量网页重要性,并做了两个重要假设:
1. 数量假设:在Web图模型中,如果一个页面节点接收到的其他网页指向的入链数量越多,那么这个页面越重要。
2. 质量假设:指向页面A的入链质量不同,质量高的页面会通过链接向其他页面传递更多的权重。所以越是质量高的页面指向页面A,则页面A越重要。
假设有四个网页如下,箭头表示外链:
构造链接概率矩阵
第一列分别表示网页与自身的链接概率为0,与网页2的链接概率为1/3,与网页3的链接概率为1/3,与网页4的链接概率为1/3。
Rank过程
如何给出网络上页面的等级向量呢?
Page-rank向量由
通过
实际应用中,会对
特殊情况处理
1. Dead End 不存在外链的节点
由于web 4这个Dead End的存在,会导致最后q收敛时的rank值为0
处理方法:去掉Dead End点及相应的边,直到没有Dead End点。计算剩余点的rank向量,由已知的点反推Dead End点的链接概率。
去掉4及相应边后,3也变成了Dead End,也去掉3及相应边。
先反推3:
再反推4:
2. Spider Traps及平滑处理
对于像图中web 4的节点,只有链向自己的外链,会导致多数节点的rank值接近0。系数矩阵也会导致rank大多数接近0,而4这样的节点更是加剧了这种情况。为了避免这种情况,对计算加平滑处理,就是上面提到的对q的修正。
Topic-Sensitive Page-Rank
一股脑地对所有网页不加区分的计算等级排序,是不符合正常的情况的,我们更希望对网上信息有个大体分类,每个类下对网页等级排序。这样搜索起来更有针对性。
其
其中
通过topic使得某类的网页在用户搜索相应类内容时,排序更靠前。
小结
page-rank的基本过程如上所述,实际应用肯定很复杂,同时也要分布处理,这里没有涉及。
- page-rank计算问题
- Page rank
- page rank inspector
- Page Rank教程
- Google Page Rank 算法
- 网页排名 page rank
- Page Rank扫盲
- Page Rank介绍
- google page rank 解释
- Page Rank Report
- Page Rank (2014ICM)
- python page rank
- Page Rank
- page-rank模型讲解
- Google Page Rank 算法(转载)
- google的page rank算法
- page rank 算法 参考链接
- [算法7]page rank算法
- Things That Cannnot Change(Android里不能改变的东西)
- 线性回归与梯度下降算法
- js子窗体关闭窗口后刷新父窗体
- 利用System.in.read() 函数从键盘读入一系列字符
- LNMP系列——Mysql主从一致性检查与修复
- page-rank计算问题
- DICOM:DICOM3.0标准中文版开源书籍协同编辑之“Github Pull Requests”
- Activity的四种启动模式和onNewIntent()
- initwithcoder和 initwithframe
- python的关键字,数据类型、操作符、转义字符和格式化字符串
- PAT 1099. Build A Binary Search Tree (30)
- 数据可视化工具
- LNMP系列——Php-fpm生产环境配置
- PAT 1013. Battle Over Cities (25)