文本分类的两种方法

来源:互联网 发布:北京市淘宝客服招聘 编辑:程序博客网 时间:2024/05/16 06:34

一种方法是使用朴素贝叶斯方法(更高级可以用费舍尔方法),但是特征需要自己提取,如果只是看其中关键词,似乎还用不上词频,另一种可以使用文本的term vector(也可以是其他特征向量),先把不同分类的特征向量计算出来(可以直接累加),然后计算向量夹角,看离哪个更近或者确定阈值即可判断,这种方法在确定文档相似性时经常用到.

0 0