文本分类(一):整体流程

来源:互联网 发布:apache tomcat 整合 编辑:程序博客网 时间:2024/05/23 00:03

有了新闻分类的语料库,接下来我们就可以进行文本分类了。
首先说一下大概的流程:

1.进行分词
2.去停用词
3.取名词
4.特征提取
5.特征加权
6.构造分类器

正式开始

1 进行分词

现在网上有很多开源的分词工具可以供我们选择, 选择结巴分词进行分词。虽然中科院的分词工具号称是最好的中文分词工具,但是它并木有进行开源。
首先进行jieba的安装,结巴的github托管地址:github。里面有结巴的安装教程,比较好理解。
貌似分词就这么简单的结束了。

2 去停用词

貌似是更加简单的一步,只要找一个停用词表,然后写个小程序进行剔除 就可以了。

3 取名词

根据结巴的分词标注结果进行取名词操作,因为往往名词是一篇文章的重点关注对象。

4 特征提取

进行语料库(保存很多文章的地方)的各个文章类别的特征提取。采用卡方检验进行特征的提取。

χ2(c,w)=N(ADBC)2(A+C)(A+B)(B+D)(C+D)

A:在c类下包含词w的文档数量;
B:不在c类下包含词w的文档数量;
C:在c类下不包含词w的文档数量;
D:不c类下且不包含词w的文档数量;
N:所有文档的数量,即N=A+B+C+D;

对于每一类,分开计算。然后取各类前400作为词表。即分类的特征。

5 特征加权

采用td-idf对每篇文章所具有的特征进行赋值td-idf
TF-IDF是一个度量一个词对所属文档主题贡献程度的一个非常重要的标准,也是将文档转化为向量表示过程中的重要一环。
TF-IDF主要思想为:如果某一个词或者短语在一篇文章中出现的频率TF很高,并且在其它文章中很少出现,则认为该词或者短语具有很好的类别区分能力,适合用来作为特征。
词频TF:

/tfw,d=nw,dini,d

其中tfw,d表示为词w在文章d中的权重,nw,d为词w在文章d中出现的次数,ini,d为文章d的总词数。
逆向文档频率:
idfi=log|w||j:widj|

其中|D|为语料库中文件总数,分母为包含wi的文件数目。

注意:由于词表中的每个词不一定在每个类中都会出现,因为需要采取平滑的方法。采用分母+1平滑的方法。

6 构造分类器

采用svm作为分类器。选取libsvm来训练模型。
1.为了使模型训练时间降低,首先使用svm-scale命令,对训练数据和测试数据进行缩放操作,上限为1,下限为0
2.使用grid.py对使用内核为rbf的svm模型进行参数选择。
3.使用svm-predict命令,对测试数据进行测试。

1 0
原创粉丝点击
热门问题 老师的惩罚 人脸识别 我在镇武司摸鱼那些年 重生之率土为王 我在大康的咸鱼生活 盘龙之生命进化 天生仙种 凡人之先天五行 春回大明朝 姑娘不必设防,我是瞎子 在这种路口遇到行人突然横穿怎么办 在左拐车道却直行了怎么办 路边简易房让拆除不想拆怎么办 英国护照的名和姓印颠倒了怎么办 加热圈功率小加不到设定温度怎么办 本田飞度05年车尾气不好怎么办 文件在lr中打开后找不到了怎么办 手机安装软件成功屏幕上没有怎么办 脸过敏发红痒怎么办用什么药膏 脸上又红又肿又痒怎么办 宝宝把皮革咬烂吃掉了怎么办 自动档皮革挡把防尘套烂了怎么办 pu包用酒精擦坏了怎么办 白色的面料被84弄黄了怎么办 要账的人赖在家不走怎么办 两塔吊的安全距离不够2米怎么办 腿上被蚊子咬后留下的黑疤怎么办 携程订的酒店酒店一直没确认怎么办 客斤的无窗挨着厨房怎么办 餐桌和墙紧挨着容易脏怎么办 vivo手机被设置成英文该怎么办 电脑开机后显示英文字该怎么办? 看到文言文就不会翻译该怎么办呢 房间楼层太高闷热不通风怎么办 对方全责不理赔没有财产怎么办啊 买二手房过户后发现房顶漏水怎么办 钻石绣的钻两个粘在一起怎么办 开修理部的一天不干活都着急怎么办 调好的车漆时间长了有点稠怎么办 下滤鱼缸下水管声音大怎么办 家里水管不开水龙头就总是响怎么办 生完儿子后腹股沟特黑怎么办 因盗窃罪出狱数额较大还不起怎么办 司法拍卖房原房主拒绝搬离怎么办 wps卡了没反应没有保存怎么办 微信扫描支付环境有风险怎么办 手机安装东西突然要扫描很久怎么办 我惹朋友真的很生气了怎么办 买了保险后又犯杀人罪 保险怎么办 水瓶盖了拧歪了打不开怎么办 刚买的老干妈盖子打不开怎么办?