2.1 文本挖掘与文本分类的概念
来源:互联网 发布:淘宝减肥排行榜前十名 编辑:程序博客网 时间:2024/06/14 05:10
文本挖掘是指从大量文本数据中抽取事先未知的、可理解的、最终可用的知识的过程,同时运用这些知识更好地组织信息以便将来参考。简言之,文本挖掘就是从非结构化的文本中寻找知识的过程。
文本挖掘的7个主要领域如下:
- 搜索和信息检索(IR):存储和文本文档的检索,包括搜索引擎和关键字搜索。
- 文本聚类:使用聚类方法,对词汇、片段、段落或文件进行分组和归类。
- 文本分类:对片段、段落或文件进行分组和归类,在使用数据挖掘分类方法的基础上,经过训练地标记示例模型。
- Web挖掘:在互联网上进行数据和文本挖掘,并特别关注网络的规模和相互联系。
- 信息抽取(IE):从非结构化文本中识别与提取有关的事实和关系;从非结构化或半结构化文本中抽取结构化数据的过程。
- 自然语言处理(NLP):将语言作为一种有意义、有规则的符号系统,在底层解析和理解语言的任务(例如,词性标注);目前的技术主要从语法、语义的角度发现语言最本质的结构和所表达的意义。
- 概念提取:把单词和短语按语义分成意义相似的组。
目前,有两种主要的文本分类方法:
- 基于模式系统:通过运用知识工程技术,将专家知识以规则表达式的形式编码成分类系统
- 基于分类模型:通过使用统计、机器学习技术,是一个广义的归纳过程,采用一组预分类的例子,通过训练建立分类
阅读全文
0 0
- 2.1 文本挖掘与文本分类的概念
- 文本挖掘之文本分类
- 【1】文本挖掘的主要概念
- 科普-文本挖掘(文本分类)流程
- R文本挖掘之四文本分类
- 文本挖掘系列之文本分类
- 【数据挖掘】文本分类器
- 数据挖掘文本分类实验
- scikit-learn 文本挖掘概念
- 数据挖掘之文本分类的数据预处理
- 中文文本挖掘的贝叶斯分类器&SVM
- 文本挖掘的体会
- 文本挖掘的概述
- 文本挖掘的介绍
- 文本分类与SVM
- 文本分类与SVM
- 文本分类与SVM
- svm与文本分类
- 【软考】权法-著作权
- 抠图
- 李明--linux视频---CH1--LINUX简介
- linq时间转换,int转换成string
- 今天我们来分享10款最新的jQuery和HTML5应用插件,都非常强大,一起来看看吧。
- 2.1 文本挖掘与文本分类的概念
- Java中static、final、static final修饰的属性
- 【Spring】Spring MVC原理及配置详解
- LeetCode-27 Remove Element
- 数据平台API集合
- 2种数组的遍历
- import pylibconfig2 报错的解决方案
- ProGuard 配置使用笔记
- 基本数据结构定义