实现文本自动分类的基础-Term频率计算方法
来源:互联网 发布:演讲比赛网络投票 编辑:程序博客网 时间:2024/05/19 08:04
也就是说搜索的目录分类机制仍然存在,但是不直接面对最终用户,而是面对搜索引擎,即根据文档内容自动分类。
根据文档内容自动分类的方法有很多种,本文介绍一下Term频率计算方法。
向量空间模型的基本思想是把文档看成一个根据其中字词出现频率权重的向量.为了减少信息的噪音,这里面的字词需要经过如下步骤的处理:
1、对文档进行分词,取出文档中包含的所有字词(term);
2、消除掉没有意义的字词(term),比如汉语的:是,的 等;
3、统计计算每个字词(term)出现的频率;
4、根据需要过滤掉出现频率高的那部分词(term)和出现频率低的那部分词(term)(类似综艺节目中去掉最高分和最低分的做法);
5、处理到这步后,我们假设一共有w个最终的字词,然后对这些字词分别标注一个唯一的标记。
处理到这一步,后面的步骤就依算法的不同而各异了。但有一个共同的特点,就是必须依赖字词(term)的权重。字词的权重直接依赖于他们出现的频率。因为我们要分析的是成千上万的文档,所以字词在一个文档中出现的频率并不能说明问题,因此在考虑字词权重的时候也要考虑多个文档的因素。
现在我们抽象的考虑一下:
1、假设需要处理的文档是一个D对象的集合;
2、分类就是一个模糊的A描述,A就是一个D的子集;
3、我们分类的难点就是区分D对象更加倾向于那个子集A(分类)。
所以这样看来决定字词权重的应该包括下面3个部分:
1、字词本身出现的频率因素,确定字词在当前文档中的重要程度;
2、文档长度的因素;
3、全部文档包含Term出现的频率,确定字词在全部文档中的重要程度;
如果能比较准确的得到字词的频率,再加上统计的方法,对文档归类就应该更加准确吧。
- 实现文本自动分类的基础-Term频率计算方法
- 实现文本自动分类的基础----Term频率计算方法
- 实现文本自动分类的基础----Term频率计算方法
- 实现文本自动分类的基础--Term频率计算方法
- FPGA设计频率的计算方法
- 文本分类的基础入门
- 二分类模型评估指标的计算方法与代码实现
- 获取一个索引文件频率最高的Term(可实现热点关键字的一个思路之一)
- 自动文本分类方法
- 文本自动分类
- 自动文本分类
- 文本自动分类
- 文本自动分类
- 基于向量空间模型的文本自动分类系统的研究与实现
- python实现统计文本中单词出现的频率
- Python实现文本自动分类(朴素贝叶斯方法)
- 文本分类基础
- 实现文本的自动移动
- 新版本的Firefox浏览器不支持firebug JS调试的问题
- 生成密码字典
- GreenDao踩坑之旅(一)
- Java基础 InputStream输入流
- VTK polyline
- 实现文本自动分类的基础-Term频率计算方法
- [BZOJ]2588 Spoj 10628. Count on a tree 树链第k大 PE的进来看看
- iOS之访问(隐私)权限设置 通讯录、相册、麦克风等
- Mac版抓包工具Charles使用
- 谈谈防止重复提交
- 【网络】tcp_server
- C#反射操作常用方法
- C++ 引用
- 求和