利用cos 文本自动分类
来源:互联网 发布:淘宝店经验 编辑:程序博客网 时间:2024/06/06 00:06
利用cos 文本自动分类
文本处理: 1.找到一个词汇表,将该词汇表进行编码(1,2,3,4....) 2.把该词汇表变为一个二维矩阵 3.将文章分词后在二维矩阵中填入对应的词(有多少个词就在该词对应的编码处填多少) <需要建立两个矩阵,因为后面要计算两篇文章的相似度>
计算原理: 不同的词在不同类型上的文章出现的次数会不同,股票,涨停,基金,黄金,货币这些词会出现在与金融有关的文章上,而 自然,风景,景色,太阳,花。就会很少出现。 如果两个文章属于同一类的话,他们的特征向量会在某几个维度上比较大。所以,cos在文本分类处理才能够实现 而 cos 正是计算两个向量的距离(相似度)
计算公式:
进行分类: 采用由下而上的方法进行文章的分类,把相似性在一个阈值的分为一类,而阈值逐渐增大。 阈值的选取尤为关键,如果阈值太大文章中的相关性就减少了,这是就可以停止阈值的选取。
算法优化 1.利用上述公式计算时,你会发现每一个文章的内积是不变的。即:分母的一部分是不变的,所以只用计算一次后便可以把它存储起来 2.在两篇文章中,同时没有出现的词汇可以从他们各自的矩阵中删去。只考虑非零元素即可。 3.简化虚词,我有一篇博客曾写过ite-if算法。曾提到,文章中的虚词会影响两篇文章主题的相似性。 所以删除虚词后不仅可以优化计算速度,而且对文章的分类有更好的帮助作用 4.位置加权。 出现在标题中的词往往会比出现在正文中的主题更加重要。而正文中的第一段和最后一段在正文重要程度也不同。所以对 标题 第一段 最后一段 进行加权可以提高文本分类的准确性
阅读全文
1 0
- 利用cos 文本自动分类
- 自动文本分类方法
- 文本自动分类
- 自动文本分类
- 文本自动分类
- 文本自动分类
- 文本自动分类方法介绍
- 文本自动分类(续)
- 利用余弦相似度做文本分类
- 利用python,基于SVM实现文本分类
- 利用SVM 实现文本分类的实例
- 利用standford-nlp库实现Naive Bayes文本分类系统
- 如何利用python中的langid,对文本语种进行分类
- 利用贝叶斯分类器进行文本挖掘---笔记
- 三十七、利用支持向量机做文本分类
- 利用spark做文本分类(朴素贝叶斯模型)
- 利用TensorFlow和神经网络来处理文本分类问题
- 利用TensorFlow实现卷积神经网络做文本分类
- 1.3 PCI&PCIE MSI中断
- HDU-5023 线段树染色问题+延时标记
- vlc连接rtsp抓包分析
- Spring Boot参考教程(十)定时任务
- 上机练习2 类与对象2
- 利用cos 文本自动分类
- 敌兵布阵 HDU
- Basic queries in SQL Server
- 详解C语言可变参数va_list和vsnprintf及printf实现
- 33. Search in Rotated Sorted Array
- 2016算法第一次练习赛——A 群鸦的盛宴
- linux 进程和线程简介
- django获取ajax的post复杂对象
- 程序调试