文本分类三
来源:互联网 发布:上瘾网络剧秒拍视频 编辑:程序博客网 时间:2024/04/29 04:40
这次特征提取先用开方检验来做。然后进行分类,如果分类结果理想。。。然后再用其他的算法做一下。当然也就有时间再整理一下和继续深入学习一下。
主要参考了
http://www.blogjava.net/zhenandaci/archive/2008/08/31/225966.html
http://www.cnblogs.com/finallyliuyu/archive/2010/09/26/1836232.html
结果不太理想,里面有一些不太好的term。。。
不知道怎么处理。。简单的删除还是不理会?感觉是当初预处理的不好吧——额,其实对文本内容就没有做预处理(无奈~)。
结果就不写了,等整理好了再发!
下面是我的代码:
/*本程序先练习在类别1中提取特征向量;字典的内容格式:term0 对个数 c1 n1 c2 n2 ... c8 n8 c9 n9....ni就是term在类别i中的文档频率DF,n9是总的文档频率 A = nj; B = n9 - nj;C = num(j) - nj;D = num(D) - n9 - C;此次试验中num(1) = 516;num(D) = 3903*/#include<iostream>#include<fstream>#include<string>#include<map>#include<utility>#include<vector>#include<cmath>using namespace std;map<string,map<int,int> > myDic;map<string,int> dic;vector<pair<string,double> > myFeature;map<string,map<int,int> >::iterator dicItor;map<int,int>::iterator iItor;//vector<pair<string,double> > ::iterator featureItor;bool cmp(const pair<string,double> & m1, const pair<string,double> & m2) { return m1.second > m2.second;}#define Cate 8int main(){ ifstream ifile ("E:\\TC\\code\\featureSelect\\dic.txt"); ofstream ofile ("E:\\TC\\code\\featureSelect\\dic10.txt"); string str; int id,df; int len; double num[9] = {0,516,447,471,492,491,488,500,498}; double num_D = 3903; double A,B,C,D; double n[10],n_9; while(ifile>>str) { for(int i = 0; i < 10; i++)n[i] = 0; ifile>>id>>len; for(int i = 1; i <= len; i++) { ifile>>id>>df; n[id] = (double)df;//n接受第i类别的DF if(id == 9) n_9 = (double)df; } double chiValue = 0; double tmpchiValue = 0; for(int i = 1; i <= 8; i++) { A = n[i]; B = n_9 - n[i]; C = num[i]- n[i]; D = num_D - n_9 - C; tmpchiValue = num_D*pow(A*D-C*B,2) / ((A+C)*(B+D)*(A+B)*(C+D)); if(tmpchiValue > chiValue) chiValue = tmpchiValue; } myFeature.push_back(make_pair(str,chiValue)); } stable_sort(myFeature.begin(),myFeature.end(),cmp); //int finalKeyWordsCount++; for(vector<pair<string,double> >::size_type j=0;j < 1000;j++) { ofile<<myFeature[j].first<<" "<<myFeature[j].second<<endl; //finalKeyWordsCount++; } system("pause"); return 0;}
0 0
- 文本分类三
- 文本分类入门(三)统计学习方法
- 文本分类入门(三)统计学习方法
- 文本分类入门(三)统计学习方法
- spark应用(三)文本分类
- 文本分类(三):文本转为词向量
- 文本分类
- 文本分类
- 文本分类
- 文本分类
- 文本分类
- 文本分类
- 文本分类
- 文本分类
- 文本分类
- 文本分类
- 文本分类
- 文本分类
- Json的规格非常简单
- 豪鹫闲谈:IBM x3650 m4服务器安装centos6.4系统
- Import Data from Excel to SQL Server
- 数据类型和Json格式
- Log4J使用实例---日志进行邮件发送或是存入数据库
- 文本分类三
- <1>计算机世界中的时间概念
- 【Java基础】Thread setDaemon 方法
- Linux下 和 Windows 下 Oracle Instant Client 的安装.
- Linux CentOs6.4 静态IP 设置
- 单利设计模式的几种实现方式
- SQL管理数据库事务
- javascript 函数调用
- 升级db2后cq掉线的解决办法