特征选择汇总(未完)

来源:互联网 发布:成都网络推广公司 编辑:程序博客网 时间:2024/06/07 16:51

TF-IDF

TF:词频,tf=文本中出现这个词的数量/文本总词数。
IDF:逆文档频率,idf=log(文本总数/(出现这个词的文本数+1))。
思想:频率高词的贡献度大,但是一个词分布的文本数越少,贡献越大,比如“的”的TF很大,但是DF很小。
反例1:比如文本有两类,一个特征只在一个类所有文本出现,另一个类完全不出现,他的DF很大,从而IDF很小,导致影响变小,但实际上这类词贡献很大。
反例2:根据分布,可能IDF的贡献比TF小或者TF贡献更小,但TFIDF把两个值的影响看作一样。
优化:类内的IDF和所有文本的IDF对文本分类影响完全不同
方案1:加入平衡因子(见VSM的链接)
方案2:论文(太原理工)分别求出类间的区分程度和类内部的区分策划程度的公式,然后再综合求权重。
优点:容易理解和实现。
缺点:只考虑每个词的单独情况,没有考虑词语间的联系,词语在同一类和不同类分布对分类的影响,词语在文本不同位置对分类的影响等因素。

在TF-IDF中还需要做很多的改进。比如考虑语句关系、词性关系、文章关系、文章标题的重要程度等

VSM :

文本空间被看作是一组正交词条向量所组成的向量空间,每个文档表示为其中一
个规范化特征向量,以项权值(权重)作为文档向量的属性值。
V(d)=(t1,w1(d); t2,w2(d)……),d为某个文档,ti为第i个特征,wi(d)为属于d的第i个特征的权重。
D是一个文档集:
这里写图片描述
标准TF-IDF公式:这里写图片描述
N为文本总数。
http://f.wanfangdata.com.cn/view/%E5%90%91%E9%87%8F%E7%A9%BA%E9%97%B4%E6%A8%A1%E5%9E%8B%E4%B8%AD%20TFIDF%20%E6%9D%83%E5%80%BC%E5%85%AC%E5%BC%8F%E7%9A%84%E4%BF%AE%E6%AD%A3.aspx?ID=Periodical_dq201408190&transaction=%7b%22ExtraData%22%3a%5b%5d%2c%22IsCache%22%3afalse%2c%22Transaction%22%3a%7b%22DateTime%22%3a%22%5c%2fDate(1463474948128%2b0800)%5c%2f%22%2c%22Id%22%3a%222a2da7af-fa37-419a-9aa3-a60901152ad8%22%2c%22Memo%22%3anull%2c%22ProductDetail%22%3a%22Periodical_dq201408190%22%2c%22SessionId%22%3a%22720d4b9b-e4f9-4a9b-8d6b-7f74d34619a2%22%2c%22Signature%22%3a%22WftZVmf9lNYwqcP%2b1qV0DtLF2kg7Yvvdw519yKOO1psewwaO0%5c%2fmGjVQVzHQnKkY4%22%2c%22TransferIn%22%3a%7b%22AccountType%22%3a%22Income%22%2c%22Key%22%3a%22PeriodicalFulltext%22%7d%2c%22TransferOut%22%3a%7b%22AccountType%22%3a%22GTimeLimit%22%2c%22Key%22%3a%22g_zgkxyzdhyjs%22%7d%2c%22Turnover%22%3a3.00000%2c%22User%22%3anull%2c%22UserIP%22%3a%22159.226.181.234%22%7d%2c%22TransferOutAccountsStatus%22%3a%5b%5d%7d

N-GRAM

http://blog.sina.com.cn/s/blog_4b2ddd15010151th.html

定义: 该模型基于这样一种假设,第n个词的出现只与前面N-1个词相关,而与其它任何词都不相关,整句的概率就是各个词出现概率的乘积。这些概率可以通过直接从语料中统计N个词同时出现的次数得到。常用的是二元的Bi-Gram和三元的Tri-Gram。
但是这种方法存在两个致命的缺陷:一个缺陷是参数空间过大,不可能实用化;另外一个缺陷是数据稀疏严重。
为了解决这个问题,我们引入了马尔科夫假设:一个词的出现仅仅依赖于它前面出现的有限的一个或者几个词。
如果一个词的出现仅依赖于它前面出现的一个词,那么我们就称之为bigram。即

   P(T) = P(W1W2W3…Wn)=P(W1)P(W2|W1)P(W3|W1W2)…P(Wn|W1W2…Wn-1)          ≈P(W1)P(W2|W1)P(W3|W2)…P(Wn|Wn-1)  

如果一个词的出现仅依赖于它前面出现的两个词,那么我们就称之为trigram。
对于一个句子T,我们怎么算它出现的概率呢?假设T是由词序列W1,W2,W3,…Wn组成的,
那么
P(T)=P(W1W2W3Wn)=P(W1)P(W2|W1)P(W3|W1W2)…P(Wn|W1W2…Wn-1)

那么我们怎么得到P(Wn|W1W2…Wn-1)呢?一种简单的估计方法就是最大似然估计(Maximum Likelihood Estimate)了。即

   P(Wn|W1W2…Wn-1) = (C(W1 W2…Wn))/(C(W1 W2…Wn-1))

剩下的工作就是在训练语料库中数数儿了,即统计序列C(W1 W2…Wn) 出现的次数和C(W1 W2…Wn-1)出现的次数。

CHI(卡方检验)

http://www.docin.com/p-524724148.html
1.分词并去除停用词后的每个词都作为特征。
2.对于每个词,计算词和该类别的

IG

MI 互信息

1.分词并去除停用词后的每个词都作为特征。
2.对于每个词都计算该词和某个类别的互信息量:
这里写图片描述

0 0
原创粉丝点击