特征选择汇总（未完）

来源：互联网发布：成都网络推广公司编辑：程序博客网时间：2024/06/07 16:51

TF-IDF

TF:词频，tf=文本中出现这个词的数量/文本总词数。
IDF:逆文档频率，idf=log（文本总数/（出现这个词的文本数+1））。
思想：频率高词的贡献度大，但是一个词分布的文本数越少，贡献越大，比如“的”的TF很大，但是DF很小。
反例1：比如文本有两类，一个特征只在一个类所有文本出现，另一个类完全不出现，他的DF很大，从而IDF很小，导致影响变小，但实际上这类词贡献很大。
反例2：根据分布，可能IDF的贡献比TF小或者TF贡献更小，但TFIDF把两个值的影响看作一样。
优化：类内的IDF和所有文本的IDF对文本分类影响完全不同
方案1：加入平衡因子（见VSM的链接）
方案2：论文（太原理工）分别求出类间的区分程度和类内部的区分策划程度的公式，然后再综合求权重。
优点：容易理解和实现。
缺点：只考虑每个词的单独情况，没有考虑词语间的联系，词语在同一类和不同类分布对分类的影响，词语在文本不同位置对分类的影响等因素。

在TF-IDF中还需要做很多的改进。比如考虑语句关系、词性关系、文章关系、文章标题的重要程度等

VSM ：

文本空间被看作是一组正交词条向量所组成的向量空间,每个文档表示为其中一
个规范化特征向量,以项权值（权重）作为文档向量的属性值。
V(d)=(t1,w1(d); t2,w2(d)……)，d为某个文档，ti为第i个特征，wi（d）为属于d的第i个特征的权重。
D是一个文档集：
这里写图片描述
标准TF-IDF公式：
N为文本总数。
http://f.wanfangdata.com.cn/view/%E5%90%91%E9%87%8F%E7%A9%BA%E9%97%B4%E6%A8%A1%E5%9E%8B%E4%B8%AD%20TFIDF%20%E6%9D%83%E5%80%BC%E5%85%AC%E5%BC%8F%E7%9A%84%E4%BF%AE%E6%AD%A3.aspx?ID=Periodical_dq201408190&transaction=%7b%22ExtraData%22%3a%5b%5d%2c%22IsCache%22%3afalse%2c%22Transaction%22%3a%7b%22DateTime%22%3a%22%5c%2fDate(1463474948128%2b0800)%5c%2f%22%2c%22Id%22%3a%222a2da7af-fa37-419a-9aa3-a60901152ad8%22%2c%22Memo%22%3anull%2c%22ProductDetail%22%3a%22Periodical_dq201408190%22%2c%22SessionId%22%3a%22720d4b9b-e4f9-4a9b-8d6b-7f74d34619a2%22%2c%22Signature%22%3a%22WftZVmf9lNYwqcP%2b1qV0DtLF2kg7Yvvdw519yKOO1psewwaO0%5c%2fmGjVQVzHQnKkY4%22%2c%22TransferIn%22%3a%7b%22AccountType%22%3a%22Income%22%2c%22Key%22%3a%22PeriodicalFulltext%22%7d%2c%22TransferOut%22%3a%7b%22AccountType%22%3a%22GTimeLimit%22%2c%22Key%22%3a%22g_zgkxyzdhyjs%22%7d%2c%22Turnover%22%3a3.00000%2c%22User%22%3anull%2c%22UserIP%22%3a%22159.226.181.234%22%7d%2c%22TransferOutAccountsStatus%22%3a%5b%5d%7d

N-GRAM

http://blog.sina.com.cn/s/blog_4b2ddd15010151th.html

定义：该模型基于这样一种假设，第n个词的出现只与前面N-1个词相关，而与其它任何词都不相关，整句的概率就是各个词出现概率的乘积。这些概率可以通过直接从语料中统计N个词同时出现的次数得到。常用的是二元的Bi-Gram和三元的Tri-Gram。
但是这种方法存在两个致命的缺陷：一个缺陷是参数空间过大，不可能实用化；另外一个缺陷是数据稀疏严重。
为了解决这个问题，我们引入了马尔科夫假设：一个词的出现仅仅依赖于它前面出现的有限的一个或者几个词。
如果一个词的出现仅依赖于它前面出现的一个词，那么我们就称之为bigram。即

   P(T) = P(W1W2W3…Wn)=P(W1)P(W2|W1)P(W3|W1W2)…P(Wn|W1W2…Wn-1)          ≈P(W1)P(W2|W1)P(W3|W2)…P(Wn|Wn-1)

如果一个词的出现仅依赖于它前面出现的两个词，那么我们就称之为trigram。
对于一个句子T，我们怎么算它出现的概率呢？假设T是由词序列W1,W2,W3,…Wn组成的，
那么
P(T)=P(W1W2W3Wn)=P(W1)P(W2|W1)P(W3|W1W2)…P(Wn|W1W2…Wn-1)

那么我们怎么得到P(Wn|W1W2…Wn-1)呢？一种简单的估计方法就是最大似然估计(Maximum Likelihood Estimate）了。即

   P(Wn|W1W2…Wn-1) = (C(W1 W2…Wn))/(C(W1 W2…Wn-1))

剩下的工作就是在训练语料库中数数儿了，即统计序列C(W1 W2…Wn) 出现的次数和C(W1 W2…Wn-1)出现的次数。

CHI（卡方检验）

http://www.docin.com/p-524724148.html
1.分词并去除停用词后的每个词都作为特征。
2.对于每个词，计算词和该类别的

IG

MI 互信息

1.分词并去除停用词后的每个词都作为特征。
2.对于每个词都计算该词和某个类别的互信息量：
这里写图片描述

0 0