分本挖掘之基本概念

来源：互联网发布：淘宝详情页怎么做编辑：程序博客网时间：2024/04/28 01:55

1、监督学习：学习过程中使用的样例是由输入/输出对给出时，称为监督学习。最典型的监督学习例子就是文本分类问题，训练集是一些已经明确分好了类别文档组成，文档就是输入，对应的类别就是输出。

2、非监督学习：学习过程中使用的样例不包含输入/输出对，学习的任务是理解数据产生的过程。典型的非监督学习例子是聚类，类别的数量，名称，事先全都没有确定，由计算机自己观察样例来总结得出。

3、TSR：特征空间的压缩，即降维，也可以叫做特征提取。包括特征选择和特征抽取两大类方法。

4、分类状态得分（CSV)：用于描述将文档归于某个类别下有多大的可信度。

5、准确率（Precision）：在所有被判断为正确的文档中，有多大比例是确实正确的。

6、召回率（Recall）：在所有确实正确的文档中，有多大比例被我们判为正确。

7、假设：计算机对训练集背后的真实模型（真实的分类规则）的猜测称为假设。可以把真实的分类规则想像为一个目标函数，我们的假设则是另一个函数，假设函数在所有的训练数据上都得出与真实函数相同（或足够接近）的结果。

8、泛化性：一个假设能够正确分类训练集之外数据（即新的，未知的数据）的能力称为该假设的泛化性。

9、一致假设：一个假设能够对所有训练数据正确分类，则称这个假设是一致的。

10、过拟合：为了得到一致假设而使假设变得过度复杂称为过拟合。想像某种学习算法产生了一个过拟合的分类器，这个分类器能够百分之百的正确分类样本数据（即再拿样本中的文档来给它，它绝对不会分错），但也就为了能够对样本完全正确的分类，使得它的构造如此精细复杂，规则如此严格，以至于任何与样本数据稍有不同的文档它全都认为不属于这个类别！

11、超平面（Hyper Plane）：n维空间中的线性函数唯一确定了一个超平面。一些较直观的例子，在二维空间中，一条直线就是一个超平面；在三维空间中，一个平面就是一个超平面。

12、线性可分和不可分：如果存在一个超平面能够正确分类训练数据，并且这个程序保证收敛，这种情况称为线形可分。如果这样的超平面不存在，则称数据是线性不可分的。

13、正样本和负样本：对某个类别来说，属于这个类别的样本文档称为正样本；不属于这个类别的文档称为负样本。

0 0