链接分析学习

来源:互联网 发布:淘宝冲印上传系统 编辑:程序博客网 时间:2024/06/16 18:13
这章主要是对算法的一些描述,理解,实际使用没有.

两个模型:

随机游走模型:对直接跳转和远程跳转两种用户浏览行为进行抽象的模型.

子集传播模型:将互联网的某些符合规则的分为指定的集合,对集合赋予初始的权重,然后将剩余的网页,根据和集合内网页的关系,传递其权重.



PageRank:


对所有页面设置一个初试权重值,根据出链进行权重传递,经过轮迭代后,每个页面的权重趋于稳定则算计算结束.需要附加损失值,防止链接陷阱

HITS算法:

引入Hub和Authority两个页面分类.

这个算法是查询时进行的,用户查询一个词,将初始相关的页面查询出来,再根据这些页面进行有链接关系的扩充.分别对每个页面赋予初始的Hup值和Authority值,经过多轮次的迭代,数值趋于稳定结束迭代,根据Authority值 ,返回排序结果.

SALSA算法:
这个是结合了PageRank和Hits算法的综合体,效果也是较好的.
开始确定集合时使用hits算法的方式,确定初始集合和扩展集合,然后将集合进行分类,进行随机游走的方法赋予相应的Authority值.




主题敏感的PageRank

事先进行相应的分类对网页属性,接收到查询词时,对查询词进行分类判别
对网页查询结果进行pagerank计算在各个分类下的维度,将其在类别下的概率与该网页
乘积相加得出排序权重.

Hilltop算法:

结合pagerank和hilltop算法.
再第一个阶段查询出专家页面,并且对其打分.统计专家页面中的关键片段集合,统计关键片段中包含
用户查询词的关键片段个数.个数越多传递的权值越大.
0 0
原创粉丝点击