中文文本分类研究
来源:互联网 发布:手机淘宝网购助手 编辑:程序博客网 时间:2024/04/28 17:11
对于中文文本分类,有两个指标比较重要,
一个是分类的速度
在当前信息爆炸的环境下,每个人都参与创造信息,互联网的发展,让信息的流动成本更低廉。
原本纸质邮件可能需要几个月才能将信息传递到地球的另外一面,现在电子邮件可以用光速,在几秒内传遍地球甚至传送到国际空间站上的宇航员电脑中。
信息流动的更快,意味着,一个人,在二十年前,一天内可能接收的信息如果是1万个字的话,在今天,只要他/她愿意,他可以在电脑前 接收上百万甚至上千万字的实时、新信息!
信息流动成本更低廉,也让虚假信息的流动更泛滥。在二十年前,没有人印刷垃圾广告并免费投送给读者,因为印刷纸质广告的成本太高,虚假信息的收益不足以支撑。今天,垃圾电子邮件让虚假信息的发布变得极为廉价。
信息爆炸,让挑选有效信息、筛选掉垃圾数据、有效组织好信息并传递到真正需要它的人那里成为一个迫切的任务。
全球有上亿的网站,每个网站几乎都在时刻不停的更新、创造出新的网页信息。
随着信息量不断增加,对海量数据的及时处理的成本在随着网站数目的增加而指数级增加,如何高速、低成本的及时处理海量数据愈发重要。
另一个是分类的精度
一个分类精度不可接收的算法,对文本的处理速度再快,也没有实用价值。
每秒分类14万(140,000)个新闻文本数据,综合分类成功率99%以上的中文文本分类算法!
软硬件环境:ubuntu 64bit,q8200 4GB
综合效能: 体育类 99.04%, 汽车 类 98.53%, 军事类 98.29% , 性能:每秒分类14万(140,000)个新闻文本数据(在线演示系统的性能受到网站带宽限制,并不能 表现真实性能)
排除掉预分类错误的情况,成功率应该均为99%以上。可检验!
具体请见
http://www.1rgzn.com/index.php/onlinedemo?start=1
有 在线演示、api接口供程序使用。
综合效能: 体育类 99.04%, 汽车 类 98.53%, 军事类 98.29% , 性能:每秒分类14万(140,000)个新闻文本数据(在线演示系统的性能受到网站带宽限制,并不能 表现真实性能)
排除掉预分类错误的情况,成功率应该均为99%以上。可检验!
具体请见
http://www.1rgzn.com/index.php/onlinedemo?start=1
有 在线演示、api接口供程序使用。
- 中文文本分类研究
- 中文文本分类
- 中文文本分类流程
- 中文文本分类
- 中文新闻文本分类
- python 中文文本分类
- spark中文文本分类
- 朴素贝叶斯中文文本分类器的研究与实现(1)[88250原创]
- 朴素贝叶斯中文文本分类器的研究与实现(2)[88250、zy、Sindy原创]
- 中文文本分类的关键技术
- 中文文本分类-朴素贝叶斯
- KNN针对中文文本分类
- SVM针对中文文本分类
- LogisticRegression针对中文文本分类
- 基于KNN算法的文本分类研究
- 文本分类的研究与实现
- 基于libsvm的中文文本分类原型
- 基于libsvm的中文文本分类原型
- Comparable和Comparator实例比较
- 使用ASP.NET MVC Futures 中的异步Action
- Java 内存释放
- 常用数据库保留字列表
- 失恋感悟
- 中文文本分类研究
- 办公室人员最好看看—word,excel绝招
- C# 播放器控
- 串口编程入门
- windows xp添加虚拟打印机
- SQLITE的C++调用示例
- 移位运算(Java)
- Firefox扩展开发
- 期待新的生活