特征选择汇总(未完)
来源:互联网 发布:成都网络推广公司 编辑:程序博客网 时间:2024/06/07 16:51
TF-IDF
TF:词频,tf=文本中出现这个词的数量/文本总词数。
IDF:逆文档频率,idf=log(文本总数/(出现这个词的文本数+1))。
思想:频率高词的贡献度大,但是一个词分布的文本数越少,贡献越大,比如“的”的TF很大,但是DF很小。
反例1:比如文本有两类,一个特征只在一个类所有文本出现,另一个类完全不出现,他的DF很大,从而IDF很小,导致影响变小,但实际上这类词贡献很大。
反例2:根据分布,可能IDF的贡献比TF小或者TF贡献更小,但TFIDF把两个值的影响看作一样。
优化:类内的IDF和所有文本的IDF对文本分类影响完全不同
方案1:加入平衡因子(见VSM的链接)
方案2:论文(太原理工)分别求出类间的区分程度和类内部的区分策划程度的公式,然后再综合求权重。
优点:容易理解和实现。
缺点:只考虑每个词的单独情况,没有考虑词语间的联系,词语在同一类和不同类分布对分类的影响,词语在文本不同位置对分类的影响等因素。
在TF-IDF中还需要做很多的改进。比如考虑语句关系、词性关系、文章关系、文章标题的重要程度等
VSM :
文本空间被看作是一组正交词条向量所组成的向量空间,每个文档表示为其中一
个规范化特征向量,以项权值(权重)作为文档向量的属性值。
V(d)=(t1,w1(d); t2,w2(d)……),d为某个文档,ti为第i个特征,wi(d)为属于d的第i个特征的权重。
D是一个文档集:
标准TF-IDF公式:
N为文本总数。
http://f.wanfangdata.com.cn/view/%E5%90%91%E9%87%8F%E7%A9%BA%E9%97%B4%E6%A8%A1%E5%9E%8B%E4%B8%AD%20TFIDF%20%E6%9D%83%E5%80%BC%E5%85%AC%E5%BC%8F%E7%9A%84%E4%BF%AE%E6%AD%A3.aspx?ID=Periodical_dq201408190&transaction=%7b%22ExtraData%22%3a%5b%5d%2c%22IsCache%22%3afalse%2c%22Transaction%22%3a%7b%22DateTime%22%3a%22%5c%2fDate(1463474948128%2b0800)%5c%2f%22%2c%22Id%22%3a%222a2da7af-fa37-419a-9aa3-a60901152ad8%22%2c%22Memo%22%3anull%2c%22ProductDetail%22%3a%22Periodical_dq201408190%22%2c%22SessionId%22%3a%22720d4b9b-e4f9-4a9b-8d6b-7f74d34619a2%22%2c%22Signature%22%3a%22WftZVmf9lNYwqcP%2b1qV0DtLF2kg7Yvvdw519yKOO1psewwaO0%5c%2fmGjVQVzHQnKkY4%22%2c%22TransferIn%22%3a%7b%22AccountType%22%3a%22Income%22%2c%22Key%22%3a%22PeriodicalFulltext%22%7d%2c%22TransferOut%22%3a%7b%22AccountType%22%3a%22GTimeLimit%22%2c%22Key%22%3a%22g_zgkxyzdhyjs%22%7d%2c%22Turnover%22%3a3.00000%2c%22User%22%3anull%2c%22UserIP%22%3a%22159.226.181.234%22%7d%2c%22TransferOutAccountsStatus%22%3a%5b%5d%7d
N-GRAM
http://blog.sina.com.cn/s/blog_4b2ddd15010151th.html
定义: 该模型基于这样一种假设,第n个词的出现只与前面N-1个词相关,而与其它任何词都不相关,整句的概率就是各个词出现概率的乘积。这些概率可以通过直接从语料中统计N个词同时出现的次数得到。常用的是二元的Bi-Gram和三元的Tri-Gram。
但是这种方法存在两个致命的缺陷:一个缺陷是参数空间过大,不可能实用化;另外一个缺陷是数据稀疏严重。
为了解决这个问题,我们引入了马尔科夫假设:一个词的出现仅仅依赖于它前面出现的有限的一个或者几个词。
如果一个词的出现仅依赖于它前面出现的一个词,那么我们就称之为bigram。即
P(T) = P(W1W2W3…Wn)=P(W1)P(W2|W1)P(W3|W1W2)…P(Wn|W1W2…Wn-1) ≈P(W1)P(W2|W1)P(W3|W2)…P(Wn|Wn-1)
如果一个词的出现仅依赖于它前面出现的两个词,那么我们就称之为trigram。
对于一个句子T,我们怎么算它出现的概率呢?假设T是由词序列W1,W2,W3,…Wn组成的,
那么
P(T)=P(W1W2W3Wn)=P(W1)P(W2|W1)P(W3|W1W2)…P(Wn|W1W2…Wn-1)
那么我们怎么得到P(Wn|W1W2…Wn-1)呢?一种简单的估计方法就是最大似然估计(Maximum Likelihood Estimate)了。即
P(Wn|W1W2…Wn-1) = (C(W1 W2…Wn))/(C(W1 W2…Wn-1))
剩下的工作就是在训练语料库中数数儿了,即统计序列C(W1 W2…Wn) 出现的次数和C(W1 W2…Wn-1)出现的次数。
CHI(卡方检验)
http://www.docin.com/p-524724148.html
1.分词并去除停用词后的每个词都作为特征。
2.对于每个词,计算词和该类别的
IG
MI 互信息
1.分词并去除停用词后的每个词都作为特征。
2.对于每个词都计算该词和某个类别的互信息量:
- 特征选择汇总(未完)
- sklearn学习:使用sklearn进行特征选择(未完)
- 视频特征提取(未完)
- 数据挖掘笔记-特征选择-整体汇总
- C++编程经验汇总(未完)
- Java API 汇总(未完待续)
- C++数据结构学习错误汇总(未完)
- c++知识汇总(未完待续)
- 资讯:ISP公司汇总(未完)
- C++ 容器汇总(未完,待续)
- 基础知识汇总三(BRDF)未完
- 特征工程(4)--特征选择
- 特征选择之基于相关性的特征选择(CFS)
- 特征选择(四)-分散度
- 特征选择(四)-分散度
- 特征选择(四)- 分散度
- Spark-特征选择(scala)
- 特征选择
- uploadifive 改进版 用于HTML5手机网站上传图片
- DMA传输中的内存对齐
- 如何在多台机器上共享IOS证书
- 全套CRC校验
- 线程池的理解
- 特征选择汇总(未完)
- android 应用中加入支付功能(支付宝集成)
- xcode 插件管理工具
- Qt for Android 之 WebSocket
- Snapkit 看这篇基本就"够"了
- html常用标签
- HDU 1213 How Many Tables (简单的并查集)
- [Android基础系列]设计模式(一)
- 无法定位序数 xxxx 与动态链接库 avformat-56.dll上