2.1 文本挖掘与文本分类的概念

来源：互联网发布：淘宝减肥排行榜前十名编辑：程序博客网时间：2024/06/14 05:10

文本挖掘是指从大量文本数据中抽取事先未知的、可理解的、最终可用的知识的过程，同时运用这些知识更好地组织信息以便将来参考。简言之，文本挖掘就是从非结构化的文本中寻找知识的过程。

文本挖掘的7个主要领域如下：

搜索和信息检索（IR）：存储和文本文档的检索，包括搜索引擎和关键字搜索。
文本聚类：使用聚类方法，对词汇、片段、段落或文件进行分组和归类。
文本分类：对片段、段落或文件进行分组和归类，在使用数据挖掘分类方法的基础上，经过训练地标记示例模型。
Web挖掘：在互联网上进行数据和文本挖掘，并特别关注网络的规模和相互联系。
信息抽取（IE）：从非结构化文本中识别与提取有关的事实和关系；从非结构化或半结构化文本中抽取结构化数据的过程。
自然语言处理（NLP）：将语言作为一种有意义、有规则的符号系统，在底层解析和理解语言的任务（例如，词性标注）；目前的技术主要从语法、语义的角度发现语言最本质的结构和所表达的意义。
概念提取：把单词和短语按语义分成意义相似的组。

目前，有两种主要的文本分类方法：

阅读全文

0 0