停用词的自动检测
来源:互联网 发布:男生穿长筒袜 知乎 编辑:程序博客网 时间:2024/05/16 00:57
令一个停用词为f(i),
nj(f(i)) 表示停用词i在时间窗口j内所有文本中出现的次数。 时间窗口典型的选择1天。时间窗口出现的文本,为这个时间产生的网页文章。例如在今天“沙达姆”出现在1000个文档中的20篇,则nj(f(i))=20。
另Pj [nj(f(i))=K] 表示停用词i在时间窗口j内所有文本中出现的次数为K的概率。K符合超几何分布。(不妨回忆一下超几何分布,在一个已知正品概率的总体空间中,任取n个零件,则其中正品的数量,这一随机变量就是超几何分布。),超几何分布在总体足够大的时候接近与二项分布,由于二项分布的计算比较简单,所以采用二项分布近似。
Pj [nj(f(i))=K] = C(K,N)* pi^k*(1-pi)^N-k
N为在时间窗口j中的总文档数,K为包含停用词f(i)的文档数,pi,为停用词f(i)的一般出现文档频率。pi可以理解成一系列时间窗口的出现频率的均值。
在一个时间窗口中的二项分布一般是不对称的除非pi=0.5,我们正是利用这个不对称,来判别停用词。
来看这个
X轴表示时间窗口中的文档数,N为最大值。Y轴表示出现x个文档包含特征f(i)的概率,对于停用词来说,N个文档
中出现N个文档包含特征f(i)的概率都相当大,所以可以判定该词为停用词。
- 停用词的自动检测
- 停用词的构建
- ElasticSearch--停用词的使用
- 中文分词与停用词的作用
- 中文分词与停用词的作用
- 中文分词与停用词的作用
- Ansj5.1.1 过滤停用词的方法
- Stop Words(停用词)
- 停用词stopWord
- 中文停用词词表
- 去停用词
- oracle全文索引之停用词的通配符功能
- 如何构建停用词列表
- 1208个中文停用词
- Java过滤停用词源码
- 英文停用词(转载)
- 英语停用词(转载)
- Java过滤停用词源码
- 专家分享Oracle数据库业务优化心得
- 过时的幽默 ---酒店小姐的幽默
- set_bit()
- 深入理解 ASP.NET 与客户端缓存 (Part 2 - ASP.NET 支持)
- execCommand指令集
- 停用词的自动检测
- Ajax表单提交实例
- 关于有限状态机
- 精妙的SQL语句
- 我真的很烦跟女人交流思想,难道女人天生就是生育工具?
- ASP.NET 中 Cookie 的基本知识
- 央视要引进《越狱》?
- SAP安装步骤[ECC6]WIN2000AS
- CSDN Blog 的 第一次