svm学后理解

来源:互联网 发布:淘宝服装店进货渠道 编辑:程序博客网 时间:2024/05/27 20:03

随着oec项目4版本的开发,学习svm算法也有段时间了,对于其理解做些总结。

首先svm是有监督的分类回归算法,对于自动识别分类效果比较好,具体流程如下:

1.对语料每个分类打标签,并对每个分类下面的txt文本进行分词。分词器有好多种,自己可以选择适合自己的,我用过mmseg4j,ansj和中科院三种分词器,其中ansj对词的标注和自动学习词性方面最好。

2.去停用词。

3.根据你想用的提取特征向量的算法来做不同的操作。

如果用卡方来做向量提取,要计算着个词在本类出现次数,在其他类出现次数,在本类不在其他类出现次数等

如果用tfidf来做向量提取,要计算词频,词在本类出现的次数,反词频,词在其他类出现的次数等

4.生成模型

5.测试预料进入,分词,统计词频,去停用词

6.按不同算法计算相似度


0 0
原创粉丝点击