常用方法的总结

来源:互联网 发布:中石化物资采购网络 编辑:程序博客网 时间:2024/05/21 11:04

(1)最简单的当然是词频方法(Word Frequency):

词频是一个词在文档中出现的次数。通过词频进行特征选择就是将词频小于某一闭值的词删除,从而降低特征空间的维数。这个方法是基于这样一个假设,即出现频率小的词对过滤的影响也较小。但是在信息检索的研究中认为,有时频率小的词含有更多的信息。因此,在特征选择的过程中不宜简单地根据词频大幅度删词。

(2)对于多文档最简单的方法:文档频数DF

文档频数(Document Frequency, DF)是最为简单的一种特征选择算法,它指的是在整个数据集中有多少个文本包含这个单词。在训练文本集中对每个特征计计算它的文档频次,并且根据预先设定的阑值去除那些文档频次特别低和特别高的特征。文档频次通过在训练文档数量中计算线性近似复杂度来衡量巨大的文档集,计算复杂度较低,能够适用于任何语料,因此是特征降维的常用方法。


在训练文本集中对每个特征计算它的文档频数,若该项的DF 值小于某个阈值则将其删除,若其DF 值大于某个阈值也将其去掉。因为他们分别代表了“没有代表性”和“没有区分度”2 种极端的情况。DF 特征选取使稀有词要么不含有用信息,要么太少而不足以对分类产生影响,要么是噪音,所以可以删去。DF 的优点在于计算量很小,而在实际运用中却有很好的效果。缺点是稀有词可能在某一类文本中并不稀有,也可能包含着重要的判断信息,简单舍弃,可能影响分类器的精度。

文档频数最大的优势就是速度快,它的时间复杂度和文本数量成线性关系,所以非常适合于超大规模文本数据集的特征选择。不仅如此,文档频数还非常地高效,在有监督的特征选择应用中当删除90%单词的时候其性能与信息增益和x2 统计的性能还不相上下。DF 是最简单的特征项选取方法, 而且该方法的计算复杂度低, 能够胜任大规模的分类任务。

但如果某一稀有词条主要出现在某类训练集中,却能很好地反映类别的特征,而因低于某个设定的阈值而滤除掉,这样就会对分类精度有一定的影响。

(3)第二简单的方法TF-IDF

TF-IDF(term frequency–inverse document frequency)是一种用于信息搜索和信息挖掘的常用加权技术。在搜索、文献分类和其他相关领域有广泛的应用。

TF-IDF的主要思想是,如果某个词或短语在一篇文章中出现的频率TF高,并且在其他文章中很少出现,则认为此词或者短语具有很好的类别区分能力,适合用来分类。TF词频(Term Frequency)指的是某一个给定的词语在该文件中出现的次数。IDF反文档频率(Inverse Document Frequency)的主要思想是:如果包含词条的文档越少,IDF越大,则说明词条具有很好的类别区分能力。

使用TF*IDF可以计算某个关键字在某篇文章里面的重要性,因而识别这篇文章的主要含义,实现计算机读懂文章的功能。


这篇文章讲的挺详细http://www.ruanyifeng.com/blog/2013/03/tf-idf.html


(4)互信息(MutualInformation)

http://blog.csdn.net/daringpig/article/details/8556135

http://www.cnblogs.com/polugen/archive/2006/11/29/576213.html

http://blog.sina.com.cn/s/blog_6255d20d0100ex51.html

http://hi.baidu.com/kuizeng/item/2f66cb0556f64c3ef2eafc26

互信息计算公式:


平均互信息:


一张图足以说明问题了。

(5)期望交叉熵(Expected Cross Entropy)

交叉熵反应了文本类别的概率分布与在出现了某个词条的情况下文本类别的概率分布之间的距离。词条的交叉熵越大,对文本类别分布影响也就越大。所以选CE最大的K个词条作为最终的特征项。

http://www.cnblogs.com/zhangchaoyang/articles/2655785.html

(6)信息增益方法(Information Gain)


(7)遗传算法(Genetic Algorithm, GA)

遗传算法的概念、算法描述及理论基础  http://blog.itpub.net/15203236/viewspace-615603/

遗传算法入门到掌握(一)http://blog.csdn.net/emiyasstar__/article/details/6938608

用遗传算法让电脑写宋词http://www.cnbeta.com/articles/110762.htm

非常好的理解遗传算法的例子http://blog.csdn.net/b2b160/article/details/4680853

遗传算法入门http://www.cnblogs.com/heaad/archive/2010/12/23/1914725.html

特征选择常用算法综述http://www.cnblogs.com/heaad/archive/2011/01/02/1924088.html

遗传算法在文本特征选择中的应用研究 http://www.doc88.com/p-4184726156442.html

(8)模拟退火算法(Simulating Anneal,SA):

大白话解析模拟退火算法http://www.cnblogs.com/heaad/archive/2010/12/20/1911614.html

模拟退火法求解TSP问题(MATLAB)http://blog.chinaunix.net/uid-9177504-id-2435124.html

http://blog.sina.com.cn/s/blog_4bc179a80100dl9i.html

POJ 2420 模拟退火http://blog.sina.com.cn/s/blog_64675f540100sehz.html

poj1379 模拟退火http://blog.csdn.net/ascii991/article/details/7637101

模拟退火(SA  http://blog.163.com/qianshch@126/blog/static/4897252220101048524568/

(9)N—Gram算法

这个跟本文的主题倒是不相关,但是很有趣~~!用Ngram Viewer通过词汇探索历史,你也可以~http://www.guokr.com/post/344966/ 

1980年-2008年,英语书中love出现的词频概率趋势图


Love在减少又反弹了~

中文书中“爱”的趋势图

爱在增加又减少了……

ngram模型中文语料实验step bystep(1)-分词与统计http://www.cnblogs.com/rocketfan/archive/2011/01/02/1924065.html

N-gram模型介绍http://hi.baidu.com/jasonlyy/item/49c1c0855f319722110ef32b

N-Gram学习笔记 http://blog.sina.com.cn/s/blog_623e3c050100m31g.html

0 0