由PageRank想到的

来源:互联网 发布:方可销售单打印软件 编辑:程序博客网 时间:2024/04/29 13:09

首先来看看什么是PageRank:

PageRank 技术:通过对由超过 50,000 万个变量和 20 亿个词汇组成的方程进行计算,PageRank 能够对网页的重要性做出客观的评价。PageRank 并不计算直接链接的数量,而是将从网页 A 指向网页 B 的链接解释为由网页 A 对网页 B 所投的一票。这样,PageRank 会根据网页 B 所收到的投票数量来评估该页的重要性。
此外,PageRank 还会评估每个投票网页的重要性,因为某些网页的投票被认为具有较高的价值,这样,它所链接的网页就能获得较高的价值。重要网页获得的 PageRank(网页排名)较高,从而显示在搜索结果的顶部。……(
From google)

一句话,Google是采用加权投票的机制来判断网页的重要性。在文本分类中,是不是也可以受到点启发呢?将类似的方法暂称之为Weightbayes+方法。所不同的是,PageRank操作的是网页,基于网页之间的信任投票。而在文本分类中,我们采用的是特征词条之间的联系来进行投票:以搜狗提供的文本分类语料库万余文本为例,如果某词条A同N个词条同时出现过,那么N越大,则词条A的区分类别能力越小,N个词所属的类别越集中,则A的区分能力越大。同时还要注意到A的权重。

不过目前只是处于想法阶段,并没有认真的去做……

原创粉丝点击