特征选取

来源:互联网 发布:一不小心买了淘宝爆款 编辑:程序博客网 时间:2024/05/01 14:40

对于分类,特征选取是预处理的过程


总体流程:1.特征选取 2.训练 3.分类

特征选取的选择包含选取的对象、特征抽取的方法两个要素


对于特征的建立,其实是一个构建向量问题,一个特征向量,会应用于所有的文章对象,而在每一篇文章中,都会有一个权值向量与之对应,而决定这篇文章如何分类,对于分类器来说就是一个利用权值进行计算的过程。


这个过程中的一些主要问题是:

1.找到一个能用于分类的特征向量和语料库(包含了分类结果);

2.通过计算方法得出该特征向量对应于每篇文章权值向量(构建向量w=(w1,w2...,wn,c)其中c为分类结果,其实就是特征向量的抽取过程);

3.分类器根据已有的权值向量、特征向量计算测试文章的结果c.


对于文章主题分类和情感分类,在特征选取上的主要区别在特征向量的构建元素选取上,主题分类当前多以词语为分类的特征向量,主要使用的方法就是利用分类词典的全部词语作为特征,通过一些方法去除掉一些元素,再使用特征向量的抽取方法抽取一些信息出来,最后使用分类器进行分类。情感分类则使用情感词典,用特种抽取方法抽取出信息,与文章分类相比,情感分类和主题分类的主要区别就是其分类的参考物更多以情感词汇为主,所以特征数量会小于文章分类的特征数量。

原创粉丝点击