机器学习术语

来源：互联网发布：兼容性测试矩阵设计编辑：程序博客网时间：2024/05/16 06:27

1.引言

现实生活中我们会发现很多基于经验作出的判断。例如看到乌云，小鸟底飞等，就判断即将下雨。人们能作出这样的判断是因为在我们的生活经验中已经遇到过多次类似的情况。人们利用以往经验作出合适的判断，而机器学习则是计算机利用以往的经验来做出相应判断。经验通常以数据形式存在，而机器学习研究的主要内容则是学习算法（即计算机从数据中产生模型的算法）。模型一般泛指从数据中得到的结果（指全局性结果，如决策树），而模式指局部性结果（如一条规则）。

2.术语

数据集：记录的集合，每条记录关于一个事件或对象（如一张照片）的描述；

属性（或特征）：反映事件或对象在某方面的表现或性质的事项（如颜色、大小等）；

属性值（或特征值）：属性对应的取值

属性空间（或样本空间）：属性构成的空间，如把相片的颜色、大小、轮廓属性构成一个三维空间

特征向量：属性空间中的每一个点对应一个坐标向量，即为特征向量

D={X1,..,Xm}表示包含m个对象的数据集，Xi={Xi1,..,Xid}第i个样本包含d个属性（d通常称为样本的维度），Xij表示第i个样本的第j个属性。

学习（或训练）：从数据中学得模型的过程

训练数据：训练过程中使用的数据

训练样本：每个对象或每个样本

训练集：训练样本构成的集合

训练或学习得出的模型对应样本数据某种潜在的规律特性，这种规律我们也可以叫真相，学习或训练的过程就是为了找出或逼近这种真相。

标记：一般指训练样本对应的结果信息，即判断结果yi（训练样本Xi对应的输出）

标记空间（或输入空间）：所有标记的集合

示例：指训练样本（如Xi）

样例：包含标记信息的示例（如(Xi,yi)表示第i个样例）

分类：指预测输出是离散的学习任务

回归：指预测输出为连续的学习任务

二分类：只对样本进行两个类别的划分，一个称为正类，另一个称为负类

多分类：涉及多个类别的分类任务

学习得到模型后，需要对模型进行测试验证，涉及到以下术语：

测试样本：被测试的样本

预测标记：对测试样本的预测输出如yi=f(Xi)

聚类：将训练集中的样本分为若干组，每组称为一个簇。聚类学习有助于我们了解数据内在的规律，为更深入的分析建立基础，学习过程中训练样本不含有标记信息。

监督学习：训练样本包含输出标记信息，如分类和回归

无监督学习：训练样本不包含输出标记信息，如聚类

模型泛化能力：学习得到的模型适用于新样本的能力。模型泛化能力通俗讲就是针对样本空间的通用性，能适合不同的样本。增加不同的训练样本可提升模型的泛化能力。

0 0