基于用户投票的排名算法:威尔逊区间

来源:互联网 发布:画派 知乎 编辑:程序博客网 时间:2024/06/05 01:49

基于用户投票的排名算法:威尔逊区间


1 威尔逊区间

排名算法就比较清晰了:

  第一步,计算每个项目的"好评率"(即赞成票的比例)。

  第二步,计算每个"好评率"的置信区间(以95%的概率)。

  第三步,根据置信区间的下限值,进行排名。这个值越大,排名就越高。

1927年,美国数学家 Edwin Bidwell Wilson提出了一个修正公式,被称为"威尔逊区间",很好地解决了小样本的准确性问题。

  

在上面的公式中,表示样本的"赞成票比例",n表示样本的大小,表示对应某个置信水平的z统计量,这是一个常数,可以通过查表或统计软件包得到。一般情况下,在95%的置信水平下,z统计量的值为1.96。

威尔逊置信区间的均值为

  

它的下限值为

  

可以看到,当n的值足够大时,这个下限值会趋向。如果n非常小(投票人很少),这个下限值会大大小于。实际上,起到了降低"赞成票比例"的作用,使得该项目的得分变小、排名下降。




2 置信区间

Pr(c1<=μ<=c2)=1-α
α是显著性水平(例:0.05或0.10)
100%*(1-α)指置信水平(例:95%或90%)
表达方式:interval(c1,c2)——置信区间。



转载自:http://www.ruanyifeng.com/blog/2012/03/ranking_algorithm_wilson_score_interval.html
原创粉丝点击