用分布定阈值

来源:互联网 发布:2017网络教育报名地点 编辑:程序博客网 时间:2024/05/04 15:16

做算法,尤其是数据挖掘,经常会有需要根据数据计算指标,但是指标计算出来确无法快速选取初始阈值的情景。
最近在做新闻内容方面的关键词(高相关性词)提取(不是热点词提取!这有些区别的,热点词要具备热度的时间衰减,本次提取不关心这点)。
目前程序实现了卡方检验结合词频,tf×idf两种。
最初用卡方检验时,对于p和另一个属性词频,我是采用逐步降低标准和观察词汇质量来调整的。
但是在做tf×idf时,其实是一个变种,一篇论文(《热点主题词提取方法研究》程 肖 陆 蓓 谌志群)里提到的,用的tf,df与均值的方差作为衡量权值,而计算出的tf×idf也好,合并方差也罢,如何选取合适的阈值来得到理想的输出呢?做算法时,很多算法假设样本符合高斯分布,然后才能用各种公式或定理进行巧妙的求解或者变换。那么对于这些计算出的参数属性是不是也可以假设它们(理想答案)符合一种数学分布呢!
数学中有泊松分布,幂律分布,这里对于语言相关,选择幂律分布,不知道什么是幂律分布?或许你听过“二八法则”,它就是幂律分布的一种。
以下引用:

9世纪的意大利经济学家Pareto研究了个人收入的统计分布,发现少数人的收入要远多于大多数人的收入,提出了著名的80/20 法则,即20%的人口占据了80%的社会财富. 个人收入X 不小于某个特定值x的概率与x的常数次幂亦存在简单的反比关系: P [X ≥x ]~x - k ,此式即为Pareto定律(帕累托定律)。
先说个大概吧,还要改改程序,以后整理下,上代码注释版。

0 0
原创粉丝点击