【百度百科】文本数据挖掘

来源:互联网 发布:大学取消事业编制 知乎 编辑:程序博客网 时间:2024/05/16 07:58
文本数据挖掘(Text Mining)是指从文本数据中抽取有价值的信息和知识的计算机处理技术。
中文名
文本数据挖掘
外文名
Text Mining
种    类
基于单文档的数据挖掘等
方    法
文本分类,文本聚类等

概念
顾名思义,文本数据挖掘是从文本中进行数据挖掘(Data Mining)。从这个意义上讲,文本数据挖掘是数据挖掘的一个分支。
文本挖掘种类
1.基于单文档的数据挖掘
2.基于文档集的数据挖掘
文本挖掘方法
1.文本分类
文本分类是一种典型的机器学习方法,一般分为训练和分类两个阶段。
2.文本聚类
文本聚类是一种典型的无监督式机器学习方法,聚类方法的选择取决于数据类型。
3.信息抽取
4.摘要
5.压缩
其中,文本分类和聚类是两种最重要最基本的挖掘功能。
挖掘工具
1.IBM DB2 intelligent Miner
2.SAS text miner
3.SPSS Text Mining
4.DMC TextFilter(纯文本抽出通用程序库)
应用
文本挖掘传统商业方面的应用主要有,企业竞争情报、CRM、电子商务网站、搜索引擎,现在已扩展到医疗、保险和咨询行业。
0 0
原创粉丝点击