文本分类
来源:互联网 发布:淘宝全网举报中心 编辑:程序博客网 时间:2024/04/28 15:35
在无所事事快两周过后,终于开始做毕设了!
首先要做的是文本的预处理:
语料库我选的是复旦大学的那个,感觉用那个的比较多吧。。。
预处理我参考的是http://www.cnblogs.com/zhangchaoyang/articles/2232205.html
1、选择了文本数较多的8个类别,然后使用FindDupFile工具分别找到train和answer文件夹的重复文件,删除他们。
2、少于500字的文本删除
3、将训练集中的文本数减少到500左右,测试集在400左右
程序中遍历文件夹参考了http://blog.csdn.net/zkn_cs_dn_2013/article/details/14228477
程序1:删除小于500字的文本
#include<stdio.h>#include<stdlib.h>#include<string.h>#include<io.h>int main(){long Handle;int count = 0;//char path[100];struct _finddata_t FileInfo;if((Handle = _findfirst("train\\C39-Sports\\*.txt",&FileInfo)) == -1L){printf("没有找到匹配的项目");}else{do{//printf("%d\n",FileInfo.size);if(FileInfo.size <= 1000){ char path[100] = "train\\C39-Sports\\"; strcat(path,FileInfo.name); printf("%s\n",FileInfo.name); remove(path); } else count++;}while(_findnext(Handle,&FileInfo) == 0);}printf("共有文档:%d\n",count);//system("pause");return 0;}
程序2:把文档数目减小的500和400
#include<cstdio>#include<cstdlib>#include<cstring>#include<iostream>#include<map>#include<io.h>using namespace std;int main(){long Handle;int count = 0; map<int,string> mymap;struct _finddata_t FileInfo;if((Handle = _findfirst("answer\\C3-Art\\*.txt",&FileInfo)) == -1L){printf("没有找到匹配的项目");}else{do{ mymap[count] = FileInfo.name; count++;}while(_findnext(Handle,&FileInfo) == 0);} printf("共有文档:%d\n",count); for(int i = 0; i < 200; i++)//985,500 { if(i % 2 == 0) { char path[100] = "answer\\C3-Art\\"; strcat(path,mymap[i].c_str()); //printf("%s\n",FileInfo.name); remove(path); } }count = 0; mymap.clear();if((Handle = _findfirst("answer\\C3-Art\\*.txt",&FileInfo)) == -1L){printf("没有找到匹配的项目");}else{do{ mymap[count] = FileInfo.name; count++;}while(_findnext(Handle,&FileInfo) == 0);}printf("删除后还有文档:%d\n",count);//system("pause");return 0;}结果: 艺术历史太空计算机环境农业经济体育总计训练集516447471492491488500498 测试集413349362391402399400401
0 0
- 文本分类
- 文本分类
- 文本分类
- 文本分类
- 文本分类
- 文本分类
- 文本分类
- 文本分类
- 文本分类
- 文本分类
- 文本分类
- 文本分类
- 文本分类
- 文本分类
- 文本分类
- 文本分类-分类器设计
- 文本挖掘之文本分类
- 自动文本分类方法
- CGIC简明教程目录(CGI篇)
- js之浏览器对象
- 面向对象……未完待续
- visual studio TFS查看提交历史记录
- cin.get( )与cin.getline( )的区别
- 文本分类
- 13-14寒假作业7
- 导出excel报表
- 送给喜欢BEYOND的朋友--BEYOND-《纪念专辑珍藏版》专辑[APE+CUE整轨]
- 字符串的组合 位图和递归分别实现
- C++类的继承
- 自定义activitybar的logo(不用默认的桌面图标)
- 最大公约数
- (转)浅谈测试驱动开发(TDD)