用分布定阈值

来源：互联网发布：2017网络教育报名地点编辑：程序博客网时间：2024/05/04 15:16

做算法，尤其是数据挖掘，经常会有需要根据数据计算指标，但是指标计算出来确无法快速选取初始阈值的情景。
最近在做新闻内容方面的关键词（高相关性词）提取（不是热点词提取！这有些区别的，热点词要具备热度的时间衰减，本次提取不关心这点）。
目前程序实现了卡方检验结合词频，tf×idf两种。
最初用卡方检验时，对于p和另一个属性词频，我是采用逐步降低标准和观察词汇质量来调整的。
但是在做tf×idf时，其实是一个变种，一篇论文（《热点主题词提取方法研究》程肖陆蓓谌志群）里提到的，用的tf，df与均值的方差作为衡量权值，而计算出的tf×idf也好，合并方差也罢，如何选取合适的阈值来得到理想的输出呢？做算法时，很多算法假设样本符合高斯分布，然后才能用各种公式或定理进行巧妙的求解或者变换。那么对于这些计算出的参数属性是不是也可以假设它们（理想答案）符合一种数学分布呢！
数学中有泊松分布，幂律分布，这里对于语言相关，选择幂律分布，不知道什么是幂律分布？或许你听过“二八法则”，它就是幂律分布的一种。
以下引用：

9世纪的意大利经济学家Pareto研究了个人收入的统计分布,发现少数人的收入要远多于大多数人的收入,提出了著名的80/20 法则,即20%的人口占据了80%的社会财富. 个人收入X 不小于某个特定值x的概率与x的常数次幂亦存在简单的反比关系: P [X ≥x ]~x - k ,此式即为Pareto定律(帕累托定律)。
先说个大概吧，还要改改程序，以后整理下，上代码注释版。

0 0