中文文本分类
来源:互联网 发布:伺服电机调试软件 编辑:程序博客网 时间:2024/04/28 07:13
哈工大社会计算与信息检索研究中心 中文文本分类介绍
概况介绍
中文文本自动分类是自然语言处理的经典研究方向,有着极其重要的应用价值。文本分类的核心技术为构建一个具有高准确度和较高速度的分类器,高效率的分类器才能具有实用性。目前构建分类器的方法有贝叶斯分类算法、K紧邻(K-NN)、决策树、线性最小二乘法估计(LLSF)、支持向量机(SVM)等,其中K-NN和SVM是基于向量空间模型(VSM)的最好的分类器,我们采用的SVM更是具有其他算法所不具备的优点,通过实验也证明了SVM能获得更好的分类性能。分类问题是自然语言处理的一个基本问题,很多相关的研究都可以归结为分类问题。自动分类在信息检索、图书馆管理和网页新闻体系划分都有重要应用。体系结构
文本分类系统的任务是:在给定的分类体系下,根据文本的内容自动地确定文本关联的类别。从数学角度来看,文本分类是一个映射的过程,它将未标明类别的文本映射到已有的类别中,该映射可以是一一映射,也可以是一对多的映射,因为通常一篇文本可以同多个类别相关联。
我们可以把分类过程分成2个部分:训练过程和分类过程:
在2004年举行的863分类评测中,我们系统在最短时间内最快完成测试,表现出极高的效率和稳定性,在10多家参加单位中处于中游水平。历经2年不断改进,在14类新闻分类体系中准确率达到80%,基本达到实用水平。
系统功能
1)较快的训练和测试过程。2)根据不同用户需求,可以便捷地更改分类体系。
3)在Windows和Linux下都可以运行。
4)支持单一文本即时分类和成批量文本同时分类。
技术特点
我们使用的方法基于类别特征域的文本分类特征选择方法。该方法首先利用“组合特征抽取”的方法去除原始特征空间中的噪音,从中抽取出候选特征。这里,“组合特征抽取”是指先利用文档频率(DF)的方法去掉一部分低频词,再用互信息的方法选择出候选特征。接下来,本方法为分类体系中的每个类别构建一个类别特征域,对出现在类别特征域中的候选特征进行特征的合并和强化,从而解决数据稀疏的问题。实验表明,这种新的方法较之各种传统方法在特征选择的效果上有着明显改善,并能显著提高文本分类系统的性能。性能指标
在2004年举行的863分类评测中,我们系统在最短时间内最快完成测试,表现出很高的效率和稳定性,准确率和招回率在10多家参加评测单位中名次位于中游。历经2年不断改进,在11个类别的新闻分类体系中准确率达到80%以上,基本达到实用水平。目前我们的系统对常用的11个类别进行测试的具体指标:
类别准确率招回率F值财经0.7255260.7922080.757402房产0.9110900.8719120.891071汽车0.9003720.9253590.912695旅游0.6771740.6922220.684615体育0.9609800.9557760.958371教育0.8586240.8443000.851402生活0.6706590.6400000.654971科技0.8214630.8230260.822243游戏0.9307320.9362120.933464娱乐0.9136900.9219220.917788军事0.9273100.8912180.908906微平均值0.8452380.8449230.844811
应用领域
1、信息检索2、新闻即时分类
3、词义消歧
4、图书馆管理系统
哈工大信息检索研究室推广技术 技术列表
中文分词与词性标注中文命名实体识别
中文词义消歧
中文依存句法分析
中文自动校对
中文文本分类
单文档自动文摘
中文多文档自动文摘
主页替换自动发现
大规模文本/网页去重系统
中英文例句检索系统
中文信息模糊匹配
简繁/繁简转换
汉语文本自动标注拼音
基于FAQ自动客服系统
中文全文检索系统
英文拼写检查
机构信息抽取系统
- 中文文本分类研究
- 中文文本分类
- 中文文本分类流程
- 中文文本分类
- 中文新闻文本分类
- python 中文文本分类
- spark中文文本分类
- 中文文本分类的关键技术
- 中文文本分类-朴素贝叶斯
- KNN针对中文文本分类
- SVM针对中文文本分类
- LogisticRegression针对中文文本分类
- 基于libsvm的中文文本分类原型
- 基于libsvm的中文文本分类原型
- 基于libsvm的中文文本分类原型
- 关于中文文本分类的一点想法
- 基于libsvm的中文文本分类原型
- 【文本分类】最强中文分词系统ICTCLAS
- POJ1316 Self Numbers
- 关于自动生成数据库的说明文档
- Android应用程序的签名
- 如何在beamer中添加分栏的内容
- Ext实现tree的目录表。
- 中文文本分类
- 用二进制方式向TXT文本写入数据
- 转 -- Top K算法问题的实现
- 30岁前成功的12条黄金法则
- 利用修改配置文件整合Eclipse和Flex
- PHP 安全手册 第四条 过滤输入
- JAVA动态代理
- 如何使用iOS手势UIGestureRecognizer
- 各种动态脚本语言简明教程大集合