分本挖掘之基本概念
来源:互联网 发布:淘宝详情页怎么做 编辑:程序博客网 时间:2024/04/28 01:55
1、监督学习:学习过程中使用的样例是由输入/输出对给出时,称为监督学习。最典型的监督学习例子就是文本分类问题,训练集是一些已经明确分好了类别文档组成,文档就是输入,对应的类别就是输出。
2、非监督学习:学习过程中使用的样例不包含输入/输出对,学习的任务是理解数据产生的过程。典型的非监督学习例子是聚类,类别的数量,名称,事先全都没有确定,由计算机自己观察样例来总结得出。
3、TSR:特征空间的压缩,即降维,也可以叫做特征提取。包括特征选择和特征抽取两大类方法。
4、分类状态得分(CSV):用于描述将文档归于某个类别下有多大的可信度。
5、准确率(Precision):在所有被判断为正确的文档中,有多大比例是确实正确的。
6、召回率(Recall):在所有确实正确的文档中,有多大比例被我们判为正确。
7、假设:计算机对训练集背后的真实模型(真实的分类规则)的猜测称为假设。可以把真实的分类规则想像为一个目标函数,我们的假设则是另一个函数,假设函数在所有的训练数据上都得出与真实函数相同(或足够接近)的结果。
8、泛化性:一个假设能够正确分类训练集之外数据(即新的,未知的数据)的能力称为该假设的泛化性。
9、一致假设:一个假设能够对所有训练数据正确分类,则称这个假设是一致的。
10、过拟合:为了得到一致假设而使假设变得过度复杂称为过拟合。想像某种学习算法产生了一个过拟合的分类器,这个分类器能够百分之百的正确分类样本数据(即再拿样本中的文档来给它,它绝对不会分错),但也就为了能够对样本完全正确的分类,使得它的构造如此精细复杂,规则如此严格,以至于任何与样本数据稍有不同的文档它全都认为不属于这个类别!
11、超平面(Hyper Plane):n维空间中的线性函数唯一确定了一个超平面。一些较直观的例子,在二维空间中,一条直线就是一个超平面;在三维空间中,一个平面就是一个超平面。
12、线性可分和不可分:如果存在一个超平面能够正确分类训练数据,并且这个程序保证收敛,这种情况称为线形可分。如果这样的超平面不存在,则称数据是线性不可分的。
13、正样本和负样本:对某个类别来说,属于这个类别的样本文档称为正样本;不属于这个类别的文档称为负样本。
- 分本挖掘之基本概念
- 图数据挖掘之基本概念
- 数据挖掘之Web挖掘和文本挖掘
- 数据挖掘之关联分析的基本概念
- 【SpamHunter】数据挖掘之基本概念——整理自书籍
- 数据挖掘之关联分析一(基本概念)
- 数据挖掘之关联分析一(基本概念)
- 数据挖掘-基本概念
- 数据挖掘中的基本概念
- 数据挖掘基本概念
- 数据挖掘基本概念
- 关联规则挖掘:基本概念
- 数据挖掘的一些基本概念
- 数据挖掘的几个基本概念
- 数据挖掘导论学习笔记之分类基本概念、决策树与模型评估
- 【数据挖掘】:分位数-分位数图
- 分形(factal)的基本概念
- 本帖纯属赚分
- linux系统samba服务器配置(完整)
- java中的this关键字
- MySQL备份
- Git 实战教程(3)
- 内核调试神器SystemTap — 简介与使用(一)
- 分本挖掘之基本概念
- 电脑蓝屏代码大全
- applicationContext.xml报Error occured processing XML 'Prohibited package name: java.lang'.
- servlet中如何获取PageContext对象
- 转: mmap文件映射内存分析
- gitflow 开发流程
- gcc warning选项
- java 基础知识学习指南
- OpenJudge-Noi 1750 全排列