大数据:链接分析

来源:互联网 发布:中国装束复原小组淘宝 编辑:程序博客网 时间:2024/05/07 09:32
大数据:链接分析

下面是我看《大数据—互联网大规模数据挖掘与分布式处理》一书第五章的总结。

1 词项作弊:在web网页中估计引入那些与网页页面无关的用于误导搜索引擎的词项。

2 对付词项作弊:Pagerank 。相信其他网页对当前网页的评价。

3 Pagerank:是递归方程“重要网页指向的网页也重要”的解。

4 Web的转移矩阵:一个或者多个链接从j指向i,那么第i行第j列元素值为1/k

5 强连通图pagerank计算:对强连通图,pagerank是转移矩阵的主特征向量。pagerank可从任意非零向量开始,反复用转移矩阵乘以当前向量,迭代约50次,估计出pagerank值。

6 随机冲浪模型:冲浪者从任意界面开始,每下一步随机访问当前页面所连接的页面。冲浪者在给定网页上停留的页面的极限概率就是网页的pagerank值。

7 终止点:没有出链的Web网页。

8 采集器陷阱:一系列节点,可能相互连接,但是不会连接集合外的点。

9 抽税机制:抑制采集器陷阱效果。成分分解加上分量。

10 转移矩阵高效表示:稀疏矩阵中提取非零元素表示。

11 极大规模矩阵向量乘法:web网络图结构,矩阵分块K*k方块,向量分k段。

12 面向主题的pagerank:查询用户对某个主题感兴趣,而对其主题相关的网页赋予更高pagerank。

13 链接垃圾 垃圾农场包括目标网页,支持网页,目标网页指向所有支持网页, 支持网页只指向目标网页。

14 TrustRank:抑制链接作弊算法,面向主题的pagerank。其中的远程跳转集合由一些可信的网页组成。

15 垃圾质量:trustrank值较pagerank值小很多的网页是垃圾农场的一部分。

16 导航页和权威页:HITS 权威页是包含价值信息的网页,导航页是包含指向价值信息的网页。HITS递归算法“导航页会指向很多权威页,权威页被很多导航页指向”。不需引入抽税机制。 


原创粉丝点击